当当云阅读 > 科技 > 计算机/网络 > 程序设计 > 解析深度学习：语音识别实践

解析深度学习：语音识别实践电子书

AlphaGo与李世石的围棋大战激发了人们对人工智能是非的诸多争论。人工智能背后的工作原理深度学习跳大众的视野。AlphaGo的大获全胜一定程度展示了深度学习在应用领域的成功，而语音识别正是深度学习取得显著成功的应用领域之一。本书是首次以深度学习为主线介绍语音识别应用的书籍，对读者了解语音识别技术及其发展历程有重要的参考价值。本书作者俞栋、邓力均是该领域的著名专家，他们是深度学习在应用领域取得突破性展的推动者与实践者，他们在书中分享的研究成果一定程度上代表了本领域*的研究展；译者俞凯、钱彦旻也是本领域的资深专家，并有众多实践成果。对于从事此领域研究的读者来说，本书无疑有重要的参考价值。

售价：¥

纸质售价：¥59.20购买纸书

421人正在读 | 1人评论

6.2

作者：俞栋,邓力

出版社：电子工业出版社

出版时间：2016-06-01

字数：33.5万

所属分类：科技 > 计算机/网络 > 程序设计

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(条)

读书简介
目录
累计评论(条)

本书是介绍语音识别中深度学习技术细节的专著。全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。着全面而深地介绍了深度学习在语音识别中的应用，包括“深度神经网络-隐马尔可夫混合模型”的训练和优化，特征表示学习、模型融合、自适应，以及以循环神经网络为代表的若干先深度学习技术。本书适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读，所有的算法及技术细节都提供了详尽的参考文献，给出了深度学习在语音识别中应用的全景。 【推荐语】 AlphaGo与李世石的围棋大战激发了人们对人工智能是非的诸多争论。人工智能背后的工作原理深度学习跳大众的视野。AlphaGo的大获全胜一定程度展示了深度学习在应用领域的成功，而语音识别正是深度学习取得显著成功的应用领域之一。本书是首次以深度学习为主线介绍语音识别应用的书籍，对读者了解语音识别技术及其发展历程有重要的参考价值。本书作者俞栋、邓力均是该领域的著名专家，他们是深度学习在应用领域取得突破性展的推动者与实践者，他们在书中分享的研究成果一定程度上代表了本领域*的研究展；译者俞凯、钱彦旻也是本领域的资深专家，并有众多实践成果。对于从事此领域研究的读者来说，本书无疑有重要的参考价值。 【作者】 俞栋 1998 年加微软公司，现任微软研究院首席研究员、浙江大学兼职教授和中科大客座教授。他是语音识别和深度学习方向的资深专家，出版了两本专著，发表了150 多篇论文，是近60 项专利的发明人及有广泛影响力的深度学习源软件CNTK 的发起人和主要作者之一。他在基于深度学习的语音识别技术上的工作带来了语音识别研究方向的转变，极大地推动了语音识别领域的发展，并获得2013 年IEEE 信号处理协会*论文奖。俞栋博士现担任IEEE 语音语言处理专业委员会委员，曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。邓力世界著名人工智能、机器学习和语音语言信号处理专家，现任微软首席人工智能科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位，然后在加拿大滑铁卢大学任教获得终身正教授。其间，他还任麻省理工学院研究职位。1999 年加微软研究院历任数职，并在2014 年初创办深度学习技术中心，主持微软公司和研究院的人工智能和深度学习领域的技术创新。邓立博士的研究方向包括自动语音与说话者识别、口语识别与理解、语音–语音翻译、机器翻译、语言模式、统计方法与机器学习、听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习，商业大数据深度分析等。他在上述领域做出了重大贡献，是ASA（美国声学学会）会士、IEEE（美国电气和电子工程师协会）会士和理事、ISCA（国际语音通信协会）会士，并凭借在深度学习与自动语音识别方向做出的杰出贡献荣获2015年度IEEE 信号处理技术成就奖。同时，他也曾在*杂志和会议上发表过与上述领域相关的300 余篇学术论文，出版过5 部著作，发明及合作发明了超过70 多项专利。邓立博士还担任过IEEE 信号处理杂志和《音频、语音与语言处理学报》（IEEE/ACMTransactions on Audio, Speech & anguage Processing）的主编。俞凯 IEEE 高级会员，上海交通大学计算机科学与工程系特别研究员。清华大学本科、硕士，英国剑桥大学工程系博士。长期从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作。他是中组部“千人计划”（青年项目）获得者，国家自然科学基金委优秀青年科学基金获得者，上海市“东方学者”特聘教授；作为共同创始人和首席科学家创立“苏州思必驰信息科技有限公司”。现任中国声学学会语音语言、听觉及音乐分会执委会委员，中国计算机学会人机交互专委会委员，中国语音产业联盟技术工作组副组长。他的研究兴趣涉及语音识别、语音合成、口语理解、对话系统、认知型人机交互等智能语音语言处理技术的多个核心技术领域，在本领域的一流国际期刊和会议上发表论文80 余篇，申请专利10 余项，取得了一系列研究、工程和产业化成果。在InterSpeech 及IEEE Spoken Language Processing 等国际会议上获得3 篇国际会议优秀论文奖，获得国际语音通信联盟（ISCA）2013 年颁发的2008—2012 Computer Speech and Language *论文奖。受邀担任InterSpeech 2009 语音识别领域主席、EUSIPCO 2011/EUSIPCO 2014 语音处理领域主席、InterSpeech 2014 口语对话系统领域主席等。他负责搭建或参与搭建的大规模连续语音识别系统，曾获得美国国家标准局（NIST）和美国国防部内部评测冠军；作为核心技术人员，负责设计并实现的认知型统计对话系统原型，在CMU 组织的2010 年对话系统国际挑战赛上获得了可控测试的冠军。作为项目负责人或Co-PI，他主持了欧盟第7 框架PARLANCE、国家自然科学基金委、上海市*、经信委，以及美国通用公司、苏州思必驰信息科技有限公司的一系列科研及产业化项目。2014 年，因在智能语音技术产业化方面的贡献，获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”。钱彦旻上海交通大学计算机科学与工程系助理研究员，博士。分别在2007 年6 月和2013 年1 月于华中科技大学和清华大学获得工学学士和工学博士学位。2013 年4 月起，任上海交通大学计算机科与工程系理研究员。同时从2015 年1 月至2015 年12 月，在英国剑桥大学工程系机器智能实验室语音组行访问，作为项目研究员与语音识别领域的著名科学家Phil Woodland 教授和Mark Gales 教授展合作研究。现为IEEE、ISCA 会员，同时也是国际源项目Kaldi 语音识别工具包发的项目组创始成员之一。此外，担任IEEE Transactions on Audio, Speech, and Language Processing、SpeechCommunication、ICASSP、Interspeech、ASRU 等国际期刊和会议的审稿人。目前在国内外学术刊物和会议上发表学术论文50 余篇，Google Scholar 总引用数近1000 次。其中包括在语音识别领域权威国际会议ICASSP、InterSpeech 和ASRU 上发表论文30 余篇，申请国家专利共3 项，已授权1 项。2008 年获科技奥运先集体奖，2014 年获中国人工智能学会颁发的“吴文俊人工智能科学技术奖步奖”。曾作为负责人和主要参与者参加了包括英国EPSRC、国家自然科学基金、国家863 等多个项目。目前的研究领域包括：语音识别、说话人和语种识别、自然语言理解、深度学习建模、多媒体信号处理等。

目录展开

内容简介

作者及译者简介

译者序

前言

术语缩写

符号

1 简介

1.1 自动语音识别：更好的沟通之桥

1.1.1 人类之间的交流

1.1.2 人机交流

1.2 语音识别系统的基本结构

1.3 全书结构

1.3.1 第一部分：传统声学模型

1.3.2 第二部分：深度神经网络

1.3.3 第三部分：语音识别中的DNN-HMM混合系统

1.3.4 第四部分：深度神经网络中的特征表示学习

1.3.5 第五部分：高级的深度模型

第一部分传统声学模型

2 混合高斯模型

2.1 随机变量

2.2 高斯分布和混合高斯随机变量

2.3 参数估计

2.4 采用混合高斯分布对语音特征建模

3 隐马尔可夫模型及其变体

3.1 介绍

3.2 马尔可夫链

3.3 序列与模型

3.3.1 隐马尔可夫模型的性质

3.3.2 隐马尔可夫模型的仿真

3.3.3 隐马尔可夫模型似然度的计算

3.3.4 计算似然度的高效算法

3.3.5 前向与后向递归式的证明

3.4 期望最大化算法及其在学习HMM参数中的应用

3.4.1 期望最大化算法介绍

3.4.2 使用EM算法来学习HMM参数——Baum-Welch算法

3.5 用于解码HMM状态序列的维特比算法

3.5.1 动态规划和维特比算法

3.5.2 用于解码HMM状态的动态规划算法

3.6 隐马尔可夫模型和生成语音识别模型的变体

3.6.1 用于语音识别的GMM-HMM模型

3.6.2 基于轨迹和隐藏动态模型的语音建模和识别

3.6.3 使用生成模型HMM及其变体解决语音识别问题

第二部分深度神经网络

4 深度神经网络

4.1 深度神经网络框架

4.2 使用误差反向传播来进行参数训练

4.2.1 训练准则

4.2.2 训练算法

4.3 实际应用

4.3.1 数据预处理

4.3.2 模型初始化

4.3.3 权重衰减

4.3.4 丢弃法

4.3.5 批量块大小的选择

4.3.6 取样随机化

4.3.7 惯性系数

4.3.8 学习率和停止准则

4.3.9 网络结构

4.3.10 可复现性与可重启性

5 高级模型初始化技术

5.1 受限玻尔兹曼机

5.1.1 受限玻尔兹曼机的属性

5.1.2 受限玻尔兹曼机参数学习

5.2 深度置信网络预训练

5.3 降噪自动编码器预训练

5.4 鉴别性预训练

5.5 混合预训练

5.6 采用丢弃法的预训练

第三部分语音识别中的深度神经网络–隐马尔可夫混合模型

6 深度神经网络–隐马尔可夫模型混合系统

6.1 DNN-HMM混合系统

6.1.1 结构

6.1.2用CD-DNN-HMM解码

6.1.3 CD-DNN-HMM训练过程

6.1.4 上下文窗口的影响

6.2 CD-DNN-HMM的关键模块及分析

6.2.1 进行比较和分析的数据集和实验

6.2.2 对单音素或者三音素的状态进行建模

6.2.3 越深越好

6.2.4 利用相邻的语音帧

6.2.5 预训练

6.2.6 训练数据的标注质量的影响

6.2.7 调整转移概率

6.3 基于KL距离的隐马尔可夫模型

7 训练和解码的加速

7.1 训练加速

7.1.1 使用多GPU流水线反向传播

7.1.2 异步随机梯度下降

7.1.3 增广拉格朗日算法及乘子方向交替算法

7.1.4 减小模型规模

7.1.5 其他方法

7.2 加速解码

7.2.1 并行计算

7.2.2 稀疏网络

7.2.3 低秩近似

7.2.4 用大尺寸DNN训练小尺寸DNN

7.2.5 多帧DNN

8 深度神经网络序列鉴别性训练

8.1 序列鉴别性训练准则

8.1.1 最大相互信息

8.1.2 增强型MM I

8.1.3 最小音素错误/状态级最小贝叶斯风险

8.1.4 统一的公式

8.2 具体实现中的考量

8.2.1 词图产生

8.2.2 词图补偿

8.2.3 帧平滑

8.2.4 学习率调整

8.2.5 训练准则选择

8.2.6 其他考量

8.3 噪声对比估计

8.3.1 将概率密度估计问题转换为二分类设计问题

8.3.2 拓展到未归一化的模型

8.3.3 在深度学习网络训练中应用噪声对比估计算法

第四部分深度神经网络中的特征表示学习

9 深度神经网络中的特征表示学习

9.1 特征和分类器的联合学习

9.2 特征层级

9.3 使用随意输入特征的灵活性

9.4 特征的鲁棒性

9.4.1 对说话人变化的鲁棒性

9.4.2 对环境变化的鲁棒性

9.5 对环境的鲁棒性

9.5.1 对噪声的鲁棒性

9.5.2 对语速变化的鲁棒性

9.6 缺乏严重信号失真情况下的推广能力

10 深度神经网络和混合高斯模型的融合

10.1 在GMM-HMM系统中使用由DNN衍生的特征

10.1.1 使用Tandem和瓶颈特征的GMM-HMM模型

10.1.2 DNN-HMM混合系统与采用深度特征的GMM-HMM系统的比较

10.2 识别结果融合技术

10.2.1 识别错误票选降低技术（ROVER）

10.2.2 分段条件随机场（SCARF）

10.2.3 最小贝叶斯风险词图融合

10.3 帧级别的声学分数融合

10.4 多流语音识别

11 深度神经网络的自适应技术

11.1 深度神经网络中的自适应问题

11.2 线性变换

11.2.1 线性输入网络

11.2.2 线性输出网络

11.3 线性隐层网络

11.4 保守训练

11.4.1 L2正则项

11.4.2 KL距离正则项

11.4.3 减少每个说话人的模型开销

11.5 子空间方法

11.5.1 通过主成分分析构建子空间

11.5.2 噪声感知、说话人感知及设备感知训练

11.5.3 张量

11.6 DNN说话人自适应的效果

11.6.1 基于KL距离的正则化方法

11.6.2 说话人感知训练

第五部分先进的深度学习模型

12 深度神经网络中的表征共享和迁移

12.1 多任务和迁移学习

12.1.1 多任务学习

12.1.2 迁移学习

12.2 多语言和跨语言语音识别

12.2.1 基于Tandem或瓶颈特征的跨语言语音识别

12.2.2 共享隐层的多语言深度神经网络

12.2.3 跨语言模型迁移

12.3 语音识别中深度神经网络的多目标学习

12.3.1 使用多任务学习的鲁棒语音识别

12.3.2 使用多任务学习改善音素识别

12.3.3 同时识别音素和字素（graphemes）

12.4 使用视听信息的鲁棒语音识别

13 循环神经网络及相关模型

13.1 介绍

13.2 基本循环神经网络中的状态-空间公式

13.3 沿时反向传播学习算法

13.3.1 最小化目标函数

13.3.2 误差项的递归计算

13.3.3 循环神经网络权重的更新

13.4 一种用于学习循环神经网络的原始对偶技术

13.4.1 循环神经网络学习的难点

13.4.2 回声状态（Echo-State）性质及其充分条件

13.4.3 将循环神经网络的学习转化为带约束的优化问题

13.4.4 一种用于学习RNN的原始对偶方法

13.5 结合长短时记忆单元（LSTM）的循环神经网络

13.5.1 动机与应用

13.5.2 长短时记忆单元的神经元架构

13.5.3 LSTM-RNN的训练

13.6 循环神经网络的对比分析

13.6.1 信息流方向的对比：自上而下还是自下而上

13.6.2 信息表征的对比：集中式还是分布式

13.6.3 解释能力的对比：隐含层推断还是端到端学习

13.6.4 参数化方式的对比：吝啬参数集合还是大规模参数矩阵

13.6.5 模型学习方法的对比：变分推理还是梯度下降

13.6.6 识别正确率的比较

13.7 讨论

14 计算型网络[1]

14.1 计算型网络

14.2 前向计算

14.3 模型训练

14.4 典型的计算节点

14.4.1 无操作数的计算节点

14.4.2 含一个操作数的计算节点

14.4.3 含两个操作数的计算节点

14.4.4 用来计算统计量的计算节点类型

14.5 卷积神经网络

14.6 循环连接

14.6.1 只在循环中一个接一个地处理样本

14.6.2 同时处理多个句子

14.6.3 创建任意的循环神经网络

15 总结及未来研究方向

15.1 路线图

15.1.1 语音识别中的深度神经网络启蒙

15.1.2 深度神经网络训练和解码加速

15.1.3 序列鉴别性训练

15.1.4 特征处理

15.1.5 自适应

15.1.6 多任务和迁移学习

15.1.7 卷积神经网络

15.1.8 循环神经网络和长短时记忆神经网络

15.1.9 其他深度模型

15.2 技术前沿和未来方向

15.2.1 技术前沿简析

15.2.2 未来方向

参考文献

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

大模型应用开发动手做AI Agent ￥57.47

黄佳著

￥57.47

Python完全自学教程￥57.54

明日科技编著

￥57.54

Python AI游戏编程入门——基于Pygame和PyTorch ￥25.99

肖凯

￥25.99

Python量化交易实战——使用vn.py构建交易系统￥55.30

欧阳鹏程

￥55.30

心流:OKR工作法￥36.50

李沛遥

￥36.50

深度学习的数学——使用Python语言￥57.47

[美]罗纳德·T·纽塞尔(Ronald T· Kneusel) 著

￥57.47

程序员必会的40种算法￥59.40

(加)伊姆兰·艾哈迈德(Imran Ahmad)

￥59.40

算法超简单:趣味游戏带你轻松入门与实践￥51.07

童晶著

￥51.07

Python人工智能编程实践￥55.93

范淼、徐晟桐

￥55.93

Python量化交易实战￥9.48

王晓华

￥9.48

更多同类图书 >

解析深度学习：语音识别实践电子书

支持设备

大模型应用开发 动手做AI Agent ￥57.47

Python完全自学教程 ￥57.54

Python AI游戏编程入门——基于Pygame和PyTorch ￥25.99

Python量化交易实战——使用vn.py构建交易系统 ￥55.30

心流:OKR工作法 ￥36.50

深度学习的数学——使用Python语言 ￥57.47

程序员必会的40种算法 ￥59.40

算法超简单:趣味游戏带你轻松入门与实践 ￥51.07

Python人工智能编程实践 ￥55.93

Python量化交易实战 ￥9.48

当当云阅读