万本电子书0元读

万本电子书0元读

顶部广告

声纹技术:从核心算法到工程实践电子书

本书的目标读者主要有两类: 在高等院校里,高年级本科生、研究生、博士生,以及教职人员与科研工作者,可以将本书作为声纹技术领域的基础教材。通过学习本书,能够对声纹技术有深浅出的了解。若是将本书作为大学教材,每章末尾的“思考与练习”还可以作为课后习题。 在企事业单位里,软件工程师、系统架构师、产品经理等,可以将本书作为一本参考工具书,在设计、实现、部署与声纹有关的产品和服务时,可以快速查阅相关的技术与方法,为自己的工作提供额外的指导。

售       价:¥

纸质售价:¥78.20购买纸书

142人正在读 | 1人评论 6.2

作       者:王泉

出  版  社:电子工业出版社

出版时间:2020-09-01

字       数:23.5万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(1条)
  • 读书简介
  • 目录
  • 累计评论(1条)
这是*本系统性地介绍声纹识别、声纹分割聚类及声纹在语音识别、语音合成、人声分离等领域中应用的技术书。本书内容全面且紧随时代前沿,不仅涵盖了早至 20世纪 60 年代的经典方法,而且以大量篇幅着重介绍了深度学习时代的*技术。本书注重理论与实践的结合,除了配备大量实践案例与习题,还有专门章节介绍声纹技术在实际工程部署方面的诸多课题。本书面向大学与研究机构的学生、教研人员,以及企事业单位从事声纹技术相关工作的工程师、架构师和产品经理等。<br/>【推荐语】<br/>本书的目标读者主要有两类: 在高等院校里,高年级本科生、研究生、博士生,以及教职人员与科研工作者,可以将本书作为声纹技术领域的基础教材。通过学习本书,能够对声纹技术有深浅出的了解。若是将本书作为大学教材,每章末尾的“思考与练习”还可以作为课后习题。 在企事业单位里,软件工程师、系统架构师、产品经理等,可以将本书作为一本参考工具书,在设计、实现、部署与声纹有关的产品和服务时,可以快速查阅相关的技术与方法,为自己的工作提供额外的指导。 阅读本书前,读者并不需要具备音频处理、语音识别等领域的相关知识,这部分内容会在第 2 章系统地学习。不过,建议读者在阅读本书前,先了解一些机器学习,尤其是神经网络、深度学习方面的基本概念。尽管这些概念在本书第 3 章里也会提及,但这些并不是本书的重,所以不会在书中深讲解。 本书虽然以声纹技术为主线,但是并不仅局限于各种具体的声纹技术,而是会涉及所有与声纹技术相关的基础知识,并且会从工程方面对声纹技术的具体部署行指导。本书涉及的一些知识,例如听觉感知、音频传输、流式信号处理、模型量化压缩等,乍看上去与声纹技术并无任何直关系,但这些都是在声纹领域的实际工作中不得不触的内容。 此外,本书在介绍概念与方法的同时,还会具体介绍一些工具及程序库(以 Python语言为主)的使用,并提供一些实践案例。熟练掌握这些基础工具,将会大大提升日常研究与发的效率。在每章内容的结尾,本书还设置了若干道思考题与练手实践项目,以帮助读者一步巩固本章的重要知识。因此,与其说本书是一本声纹技术的教科书,不如说本书是一本针对所有声纹领域研究、工作人员的百科全书及实用手册。 本书不仅介绍了声纹领域经典的模型与方法,还涵盖领域里前沿的研究与应用,包括大量发表于 2019 年和 2020 年的文章。读者可以通过阅读本书对这些前沿工作的介绍,让自己的知识储备领先于同行,并对整个声纹领域的未来发展趋势有一个大致的了解。<br/>【作者】<br/>王泉,美国谷歌公司资深软件工程师、声纹识别与语言识别团队主管。作者毕业于清华大学自动化系,后取得美国伦斯勒理工学院计算机工程专业博士学位,曾在美国亚马逊公司参与亚马逊智能音箱语音助手Alexa的研发。在谷歌任职期间,作者带领团队将先的声纹技术部署到了大量产品中,使得谷歌智能音箱成为市面上款支持多用户模式的同类产品。此外,作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别及语音合成等诸多领域拥有大量专利,发表过多篇重量级论文,并创了监督式声纹分割聚类及声纹定向人声分离这两个新兴研究方向。作者的工作曾被VentureBeat、TechCrunch、Engadget、CNET等国际著名科技媒体专题报道。<br/>
目录展开

前折页

内容简介

前言

1 声纹技术的前世今生

1.1 什么是声纹

1.2 最早的声纹技术

1.3 声纹技术的发展

1.3.1 声纹技术与音频信号处理

1.3.2 模板匹配方法

1.3.3 早期统计学方法

1.3.4 高斯混合模型

1.3.5 联合因子分析与i-vector

1.4 大变革:深度学习时代的来临

1.5 新的机遇:智能语音助手的普及

2 音频信号处理基础

2.1 欲懂声纹,先学音频

2.2 声学基础

2.2.1 语音的产生

2.2.2 正弦波

2.2.3 频谱

2.2.4 听觉与感知

2.2.5 听觉的非线性

2.3 音频信号基础概念

2.3.1 模拟音频信号

2.3.2 模拟转数字:采样与量化

2.3.3 音频编码

2.3.4 音频文件格式

2.3.5 动手实践:SoX 程序

2.4 从信号到特征:短时分析

2.4.1 传统特征分析的不足

2.4.2 分帧

2.4.3 窗函数处理

2.4.4 帧叠加与帧采样

2.5 常用的音频特征

2.5.1 时域特征

2.5.2 从时域到频域:傅里叶变换

2.5.3 频谱、倒谱、时频谱和功率谱

2.5.4 感知线性预测

2.5.5 梅尔倒谱系数

2.5.6 功率正则化倒谱系数

2.5.7 动手实践:用LibROSA 提取MFCC 特征

3 声纹识别技术

3.1 声纹识别:声纹技术的核心

3.1.1 名称与概念

3.1.2 按任务分类

3.1.3 按文本内容分类

3.1.4 系统流程

3.2 声纹识别的评价指标

3.2.1 相似匹配

3.2.2 录入集与验证集

3.2.3 ROC 曲线及曲线下面积

3.2.4 等错率

3.2.5 最小检测代价函数

3.2.6 辨认准确率

3.3 深度学习之前的方法

3.3.1 早期方法

3.3.2 高斯混合模型方法

3.3.3 高斯混合模型-通用背景模型

3.3.4 高斯混合模型-支持向量机

3.3.5 联合因子分析

3.3.6 i-vector 方法

3.4 基于深度学习的方法

3.4.1 关于深度学习的简单介绍

3.4.2 声纹识别中的神经网络

3.4.3 运行时的推理逻辑

3.4.4 声纹识别中的损失函数

3.5 声纹识别中的数据处理

3.5.1 声纹识别的数据需求

3.5.2 数据预处理

3.5.3 数据增强

3.5.4 多数据集训练

3.6 声纹验证

3.6.1 验证方法

3.6.2 分数正则化

3.7 常用数据集

3.7.1 TIMIT

3.7.2 VCTK

3.7.3 LibriSpeech

3.7.4 LibriVox

3.7.5 VoxCeleb

3.7.6 CN-Celeb

3.7.7 BookTubeSpeech

3.7.8 维基百科语音库

3.7.9 DeepMine

4 声纹识别的工程部署

4.1 从模型到产品

4.1.1 模型不等于产品

4.1.2 软件工程基本概念

4.2 声纹识别常见工程问题

4.2.1 录入阶段的工程问题

4.2.2 识别阶段的工程问题

4.2.3 语音处理引擎:流式信号处理与计算图

4.2.4 模型版本迭代

4.2.5 在线代理指标

4.3 全设备端部署

4.3.1 部署方式的分类依据

4.3.2 版本迭代更新

4.3.3 资源限制:设备端的最大挑战

4.3.4 模型量化技术

4.4 全服务器端部署

4.4.1 全服务器端架构

4.4.2 版本迭代更新

3. 双版本更新策略

4.4.3 负载均衡与故障处理

4.5 复合式部署

4.5.1 声纹信息的敏感性

4.5.2 复合式架构

4.5.3 版本迭代更新

5 声纹分割聚类技术

5.1 分割聚类:更好地理解对话语音

5.1.1 关于名称与历史

5.1.2 常见应用

5.1.3 常见通用架构

5.1.4 声纹分割聚类的不同任务类型

5.2 声纹分割聚类与多说话人识别

5.2.1 声源分离

5.2.2 连续声纹识别

5.2.3 说话人转换检测

5.3 聚类分析

5.3.1 聚类不等于分类

5.3.2 在线聚类技术

5.3.3 离线聚类技术

5.3.4 基于离线聚类的在线声纹分割聚类

5.4 二次分割方法

5.4.1 基于分类的二次分割

5.4.2 基于隐马尔可夫模型的二次分割

5.5 监督式方法

5.5.1 聚类方法的一些问题

5.5.2 从传统聚类到监督式方法

5.5.3 无界交织态循环神经网络

5.5.4 判别神经聚类

5.5.5 置换不变性训练

5.5.6 端到端模型

5.5.7 与语音识别的联合训练

5.6 声纹分割聚类的评价指标

5.6.1 评价指标的置换不变性

5.6.2 分割聚类错误率

5.6.3 词分割聚类错误率

5.6.4 其他指标

5.7 常用数据集

5.7.1 CALLHOME

5.7.2 NIST SRE 2000

5.7.3 ICSI

5.7.4 Fisher

5.7.5 AMI

6 声纹技术的其他应用

6.1 声纹的力量

6.2 用于语音识别

6.2.1 语音识别技术概述

6.2.2 声纹自适应声学模型

6.3 用于语音合成

6.3.1 语音合成技术概述

6.3.2 声纹克隆:合成任意说话人的声音

6.4 用于语音检测

6.4.1 语音检测技术概述

6.4.2 个性化语音检测

6.5 用于人声分离

6.5.1 人声分离技术概述

6.5.2 定向人声分离

6.6 声纹转换

6.7 声纹还原度测试

6.7.1 音频处理的声纹保留性质

6.7.2 音频编码格式的还原度测试

6.7.3 语音合成技术的还原度测试

7 声纹技术的未来

7.1 概述

7.2 声纹技术的挑战

7.2.1 对信道变化的鲁棒性

7.2.2 对声纹变化的鲁棒性

7.2.3 反欺诈

7.3 对更多数据的需求

7.3.1 更为多样的数据增强

7.3.2 用于训练的合成语音

7.3.3 自动数据采集

7.4 声纹技术的未来研究方向

7.4.1 对抗学习

7.4.2 多模态说话人识别

7.4.3 联邦学习

7.4.4 集成学习

7.4.5 同时完成声纹分割聚类与人声分离

7.5 结语

中英词汇对照

参考文献

累计评论(1条) 1个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部