万本电子书0元读

万本电子书0元读

顶部广告

AI语音与音乐生成电子书

可学AI团队倾力造,详解AI语音与音乐生成的核心知识与场景应用 只讲干货,重在实践提升,通过33个典型案例快速提高读者的实际动手能力 国内知名游戏音乐公司“小旭音乐”创始人卢小旭评并推荐 采用“图书 教学视频 拓展学习 答疑解惑”的立体教学方式 赠送教学视频、案例素材、提示词、教学PPT等超值资源 提供QQ书友群、B站和公众号等完善的售后服务渠道

售       价:¥

纸质售价:¥63.00购买纸书

1人正在读 | 0人评论 6.4

作       者:王双尹子成白玉棋张珈毓何媛媛

出  版  社:清华大学出版社

出版时间:2025-07-01

字       数:16.1万

所属分类: 文艺 > 艺术 > 音乐/舞蹈

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
《AI语音与音乐生成》结合33个典型案例,从AI语音与音乐生成的发展历史、基本原理、平台与工具、场景应用、综合实战5方面详细介绍其核心知识、主流工具、操作技巧和应用实践等,从而帮助读者系统掌握AI语音与音乐生成的相关知识,并给相关企业解决真实场景问题提供参考。《AI语音与音乐生成》提供配套教学视频、案例素材、提示词文件、语音类工作流文件、教学PPT和软件安装文件等超值配套资源,帮助读者高效、直观地学习。 《AI语音与音乐生成》共19章,分为5篇。第1篇AI语音概论,系统介绍AI语音发展历史、AI语音技术引发的社会争议和AI语音未来展望;第2篇音频技术原理,主要介绍语音识别、语音合成和音乐生成的基本原理等;第3篇AI语音平台与工具,主要介绍国内综合语音平台、国外综合语音平台、常用的专业化语音平台、重要的源AI语音模型等;第4篇AI语音场景应用,主要介绍声音处理、声音识别、语音合成和音乐生成4种常见的AI语音场景应用;第5篇AI语音综合应用实战,首先介绍AI语音类工作流,然后介绍如何综合使用前面章节介绍的工具、模型和技巧,带领读者行应用实践,从而完成AI翻唱、文案配音、 “复活”亲人和郭老师说英语4个热门AI语音综合应用实战案例。 《AI语音与音乐生成》内容丰富,讲解深浅出,案例典型、适合自媒体创作、音乐创作、游戏配音和影视配音等相关领域的从业者与爱好者阅读,也适合高等院校和培训机构作为AI语音类课程的教材或培训用书。<br/>【推荐语】<br/>可学AI团队倾力造,详解AI语音与音乐生成的核心知识与场景应用 只讲干货,重在实践提升,通过33个典型案例快速提高读者的实际动手能力 国内知名游戏音乐公司“小旭音乐”创始人卢小旭评并推荐 采用“图书 教学视频 拓展学习 答疑解惑”的立体教学方式 赠送教学视频、案例素材、提示词、教学PPT等超值资源 提供QQ书友群、B站和公众号等完善的售后服务渠道 本书特色: 轻松上手:通过“图书 教学视频 拓展学习 答疑解惑”的立体教学方式,带领读者轻松上手。 内容全面:涵盖AI语音的发展历史、基本原理、平台与工具、场景应用和综合实战等,涉及31个AI语音类在线平台与工具、16个源AI语音模型、4种常用ComfyUI语音工作流,帮助读者一站式掌握AI语音与音乐生成的相关知识。 技术新颖:紧跟技术发展趋势,基于当前流行的工具、平台和模型行讲解,以确保技术的新颖性和时效性。 图文并茂:结合230多幅图讲解核心知识和应用实战案例,直观地展现AI语音与音乐生成的基本原理和实际效果。 实践性强:详解33个类型丰富、由易到难的典型应用案例,涵盖AI语音与音乐生成的各种常见场景应用,帮助读者快速提高实际动手能力。 举一反三:针对同一功能或场景应用,提供多种实现思路,帮助读者融会贯通,从而达到举一反三的效果。 资料超值:提供大量的超值配套学习资源,帮助读者高效、直观地学习。 服务完善:提供QQ书友群、电子邮箱、B站和公众号等多种服务渠道,为读者的学习保驾护航。<br/>【作者】<br/>王双:博士,毕业于中国科学院大学。现任教于武汉纺织大学,兼任可学AI的顾问。自2017年起教授人工智能的相关课程,对PINN和AIGC的相关理论与应用有深的研究,熟练掌握AIGC的相关原理、工具与发技巧,熟悉AIGC的各种场景应用,主持发了高校AIGC实训中心平台。已为多所高等院校提供AIGC相关课程、师资、平台综合解决方案。主持编写并出版了《AI绘画大师之道:轻松门》《AI绘画全场景案例应用与实践》《AIGC绘画与音视频生成:ComfyUI工作流应用与实践》等图书。 尹子成:现任可学AI高级研发工程师。兼任智能语音和生成式音乐负责人,从事AI语音与音乐课程发、应用发与技术测试,理论基础扎实,经验丰富。 白玉棋:现任可学AI高级研发工程师,专注于ComfyUI工作流研发,能为特定的AIGC任务发复杂的工作流。授课经验丰富,已经为武昌理工学院、东湖学院和武汉交通职业学院等多所院校的师生授课。 张珈毓:现任可学AI研发工程师,负责文案撰写、语音教程编写、源模型测试等,代码编写能力较强,能熟练使用各类源语音模型与工具。 何媛媛:博士,毕业于中国科学院大学。现任教于武汉纺织大学,兼任可学AI的顾问。自2024年起研究AIGC,并专注于生成式3D,熟悉Nerf、Guassians Splatting等3D重建算法,致力于探索AI 3D的推广与应用。<br/>
目录展开

内容简介

作者简介

前言

本书特色

本书内容

读者对象

配套资源获取方式

意见反馈

致谢

第1篇 AI语音概论

第1章 AI语音简史

1.1 缓慢进步时期

1.2 快速发展时期

1.3 突破爆发时期

第2章 AI语音技术引发的社会争议

2.1 AI语音电诈

2.2 利用AI语音“复活”亲人

2.3 AI语音产品版权之争

第3章 AI语音未来展望

3.1 AI音乐——让听觉更自由

3.2 语音交互——迎接智能新世界

第2篇 音频技术原理

第4章 语音识别原理

4.1 传统语音识别系统的构成

4.2 传统语音识别流程

4.3 端到端语音识别系统的构成

4.4 端到端语音识别流程

第5章 语音合成原理

5.1 语音合成基础

5.2 语音合成技术框架

第6章 音乐生成原理

6.1 音乐生成基础

6.2 如何通过提示词控制音乐生成效果

第3篇 AI语音平台与工具

第7章 国内综合语音平台

7.1 百度语音平台

7.2 讯飞开放语音平台

7.3 华为云语音平台

7.4 阿里云语音平台

7.5 其他语音平台

第8章 国外综合语音平台

8.1 Microsoft Azure语音平台

8.2 Google Cloud语音平台

8.3 其他语音平台

第9章 常用的专业化语音平台

9.1 文本转语音类在线平台

9.2 音乐生成类在线平台

9.3 音频处理类在线平台

9.4 综合类在线平台

9.5 多模态语音平台

第10章 重要的开源AI语音模型

10.1 环境搭建

10.2 语音识别开源模型

10.3 语音合成开源模型

10.4 声音转换开源模型

10.5 音乐生成开源模型

第4篇 AI语音场景应用

第11章 声音处理

11.1 UVR5使用简介

11.2 声音降噪

11.3 音频切割

11.4 音频分离

11.5 其他处理工具

第12章 声音识别

12.1 语音识别案例:将语音记录成文字

12.2 语种识别案例:德语还是法语

12.3 声纹识别案例:嗓音身份证

12.4 情感识别案例:开心还是悲伤

12.5 语音唤醒案例:打开空调

12.6 声音分析案例:发电站水泵安全检测

12.7 音乐分析案例:用Sonoteller工具专业化分析音乐

12.8 其他识别工具

第13章 语音合成

13.1 文字转语音案例:盲人听报

13.2 声音克隆案例:声纹永生

13.3 语言替换案例:中、日、英全精通

13.4 音色替换案例:零门槛翻唱热门歌曲

13.5 实时变声案例:变声器

第14章 音乐生成

14.1 提示词基础

14.2 文生音乐

14.3 通过图像生成音乐和音效

14.4 通过参考音乐生成新的音乐

第5篇 AI语音综合应用实战

第15章 AI语音类工作流

15.1 文字转语音

15.2 数字人口播

15.3 语音克隆

15.4 音乐生成

第16章 AI翻唱

16.1 数据预处理

16.2 声音训练

16.3 声音推理

16.4 影响声音模型质量的因素和其他音色替换工具与应用场景

第17章 文案配音

17.1 生成文案

17.2 基于在线平台和开源模型进行文案配音

17.3 生成背景音乐

17.4 生成视频和图片

17.5 剪辑整合

17.6 其他文案配音工具与应用场景

第18章 “复活”亲人

18.1 声音克隆

18.2 数字人对口型

18.3 工作流整合

18.4 其他语音合成工具与应用场景

第19章 郭老师说英语

19.1 使用开源模型进行同声传译

19.2 使用在线平台进行同声传译

19.3 其他同声传译工具与应用场景

参考文献

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部