本书的目标读者主要有两类: 在高等院校里,高年级本科生、研究生、博士生,以及教职人员与科研工作者,可以将本书作为声纹技术领域的基础教材。通过学习本书,能够对声纹技术有深浅出的了解。若是将本书作为大学教材,每章末尾的“思考与练习”还可以作为课后习题。 在企事业单位里,软件工程师、系统架构师、产品经理等,可以将本书作为一本参考工具书,在设计、实现、部署与声纹有关的产品和服务时,可以快速查阅相关的技术与方法,为自己的工作提供额外的指导。
售 价:¥
纸质售价:¥78.20购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
前折页
内容简介
前言
1 声纹技术的前世今生
1.1 什么是声纹
1.2 最早的声纹技术
1.3 声纹技术的发展
1.3.1 声纹技术与音频信号处理
1.3.2 模板匹配方法
1.3.3 早期统计学方法
1.3.4 高斯混合模型
1.3.5 联合因子分析与i-vector
1.4 大变革:深度学习时代的来临
1.5 新的机遇:智能语音助手的普及
2 音频信号处理基础
2.1 欲懂声纹,先学音频
2.2 声学基础
2.2.1 语音的产生
2.2.2 正弦波
2.2.3 频谱
2.2.4 听觉与感知
2.2.5 听觉的非线性
2.3 音频信号基础概念
2.3.1 模拟音频信号
2.3.2 模拟转数字:采样与量化
2.3.3 音频编码
2.3.4 音频文件格式
2.3.5 动手实践:SoX 程序
2.4 从信号到特征:短时分析
2.4.1 传统特征分析的不足
2.4.2 分帧
2.4.3 窗函数处理
2.4.4 帧叠加与帧采样
2.5 常用的音频特征
2.5.1 时域特征
2.5.2 从时域到频域:傅里叶变换
2.5.3 频谱、倒谱、时频谱和功率谱
2.5.4 感知线性预测
2.5.5 梅尔倒谱系数
2.5.6 功率正则化倒谱系数
2.5.7 动手实践:用LibROSA 提取MFCC 特征
3 声纹识别技术
3.1 声纹识别:声纹技术的核心
3.1.1 名称与概念
3.1.2 按任务分类
3.1.3 按文本内容分类
3.1.4 系统流程
3.2 声纹识别的评价指标
3.2.1 相似匹配
3.2.2 录入集与验证集
3.2.3 ROC 曲线及曲线下面积
3.2.4 等错率
3.2.5 最小检测代价函数
3.2.6 辨认准确率
3.3 深度学习之前的方法
3.3.1 早期方法
3.3.2 高斯混合模型方法
3.3.3 高斯混合模型-通用背景模型
3.3.4 高斯混合模型-支持向量机
3.3.5 联合因子分析
3.3.6 i-vector 方法
3.4 基于深度学习的方法
3.4.1 关于深度学习的简单介绍
3.4.2 声纹识别中的神经网络
3.4.3 运行时的推理逻辑
3.4.4 声纹识别中的损失函数
3.5 声纹识别中的数据处理
3.5.1 声纹识别的数据需求
3.5.2 数据预处理
3.5.3 数据增强
3.5.4 多数据集训练
3.6 声纹验证
3.6.1 验证方法
3.6.2 分数正则化
3.7 常用数据集
3.7.1 TIMIT
3.7.2 VCTK
3.7.3 LibriSpeech
3.7.4 LibriVox
3.7.5 VoxCeleb
3.7.6 CN-Celeb
3.7.7 BookTubeSpeech
3.7.8 维基百科语音库
3.7.9 DeepMine
4 声纹识别的工程部署
4.1 从模型到产品
4.1.1 模型不等于产品
4.1.2 软件工程基本概念
4.2 声纹识别常见工程问题
4.2.1 录入阶段的工程问题
4.2.2 识别阶段的工程问题
4.2.3 语音处理引擎:流式信号处理与计算图
4.2.4 模型版本迭代
4.2.5 在线代理指标
4.3 全设备端部署
4.3.1 部署方式的分类依据
4.3.2 版本迭代更新
4.3.3 资源限制:设备端的最大挑战
4.3.4 模型量化技术
4.4 全服务器端部署
4.4.1 全服务器端架构
4.4.2 版本迭代更新
3. 双版本更新策略
4.4.3 负载均衡与故障处理
4.5 复合式部署
4.5.1 声纹信息的敏感性
4.5.2 复合式架构
4.5.3 版本迭代更新
5 声纹分割聚类技术
5.1 分割聚类:更好地理解对话语音
5.1.1 关于名称与历史
5.1.2 常见应用
5.1.3 常见通用架构
5.1.4 声纹分割聚类的不同任务类型
5.2 声纹分割聚类与多说话人识别
5.2.1 声源分离
5.2.2 连续声纹识别
5.2.3 说话人转换检测
5.3 聚类分析
5.3.1 聚类不等于分类
5.3.2 在线聚类技术
5.3.3 离线聚类技术
5.3.4 基于离线聚类的在线声纹分割聚类
5.4 二次分割方法
5.4.1 基于分类的二次分割
5.4.2 基于隐马尔可夫模型的二次分割
5.5 监督式方法
5.5.1 聚类方法的一些问题
5.5.2 从传统聚类到监督式方法
5.5.3 无界交织态循环神经网络
5.5.4 判别神经聚类
5.5.5 置换不变性训练
5.5.6 端到端模型
5.5.7 与语音识别的联合训练
5.6 声纹分割聚类的评价指标
5.6.1 评价指标的置换不变性
5.6.2 分割聚类错误率
5.6.3 词分割聚类错误率
5.6.4 其他指标
5.7 常用数据集
5.7.1 CALLHOME
5.7.2 NIST SRE 2000
5.7.3 ICSI
5.7.4 Fisher
5.7.5 AMI
6 声纹技术的其他应用
6.1 声纹的力量
6.2 用于语音识别
6.2.1 语音识别技术概述
6.2.2 声纹自适应声学模型
6.3 用于语音合成
6.3.1 语音合成技术概述
6.3.2 声纹克隆:合成任意说话人的声音
6.4 用于语音检测
6.4.1 语音检测技术概述
6.4.2 个性化语音检测
6.5 用于人声分离
6.5.1 人声分离技术概述
6.5.2 定向人声分离
6.6 声纹转换
6.7 声纹还原度测试
6.7.1 音频处理的声纹保留性质
6.7.2 音频编码格式的还原度测试
6.7.3 语音合成技术的还原度测试
7 声纹技术的未来
7.1 概述
7.2 声纹技术的挑战
7.2.1 对信道变化的鲁棒性
7.2.2 对声纹变化的鲁棒性
7.2.3 反欺诈
7.3 对更多数据的需求
7.3.1 更为多样的数据增强
7.3.2 用于训练的合成语音
7.3.3 自动数据采集
7.4 声纹技术的未来研究方向
7.4.1 对抗学习
7.4.2 多模态说话人识别
7.4.3 联邦学习
7.4.4 集成学习
7.4.5 同时完成声纹分割聚类与人声分离
7.5 结语
中英词汇对照
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜