万本电子书0元读

万本电子书0元读

顶部广告

Kaldi语音识别实战电子书

Kaldi的出现,被业内公认为极大地降低了语音识别技术学习与使用的门槛,成为广受欢迎的工具。 本书由Kaldi的知名贡献者和社区技术骨干撰写,结合实际场景,系统全面地阐述了Kaldi的基础理论和应用知识,非常适合门,是珍贵的学习资料。本书特色: 1 以Kaldi脚本实例为线索,结合大量示例,降低学习门槛  2 详述各类实践技巧,举一反三 3 实际场景问题分析与解决方案

售       价:¥

纸质售价:¥66.20购买纸书

305人正在读 | 0人评论 6.2

作       者:陈果果 等

出  版  社:电子工业出版社

出版时间:2020-03-01

字       数:18.0万

所属分类: 科技 > 计算机/网络 > 软件系统

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
Kaldi是目前语音识别领域,广受欢迎并流行的源工具包。Kaldi设计之初对通用性,可拓展性等一系列源代码层次的考量,大大降低了Kaldi作为语音识别工具包的门槛, 同时拥有非常完整的语音识别系统训练脚本。本书通过对Kaldi已有训练脚本的梳理和引导,帮助读者快速搭建可用的语音识别系统。<br/>【推荐语】<br/>Kaldi的出现,被业内公认为极大地降低了语音识别技术学习与使用的门槛,成为广受欢迎的工具。 本书由Kaldi的知名贡献者和社区技术骨干撰写,结合实际场景,系统全面地阐述了Kaldi的基础理论和应用知识,非常适合门,是珍贵的学习资料。本书特色: 1 以Kaldi脚本实例为线索,结合大量示例,降低学习门槛  2 详述各类实践技巧,举一反三 3 实际场景问题分析与解决方案 4兼述语音技术其他关键应用:语音唤醒(关键词识别)、说话人识别、语种识别<br/>【作者】<br/>陈果果清华大学本科学位,约翰霍普金斯大学博士学位,主要研究方向是语音识别及关键词检索,师从语音识别源工具Kaldi主要发者Daniel Povey,以及约翰霍普金斯大学语言语音处理中心教授Sanjeev Khudanpur。博士期间为Google发了Google的唤醒词Okay Google的原型,现在已经用到数以亿计的安卓设备及Google智能语音交互设备上。博士期间同时参与发语音识别源工具Kaldi,以及神经网络源工具CNTK。博士毕业以后联合创办KITT.AI,专注于语音识别及自然语言处理,公司于2017年被百度收,目前担任百度智能生活事业群组(SLG)主任架构师。都家宇本科毕业于大连理工大学,后于澳大利亚新南威尔士大学电子信息工程学院学习,取得信号处理专业硕士学位。研究生期间在导师 Julien Epps 指导下始行语音处理、情绪识别方向的研究。毕业后先后任职于清华大学语音技术实验室、百度语音技术部,以及阿里巴巴iDST、达摩院语音组,从事声学模型、解码器、语音唤醒等方面的研发工作。参与过与 Kaldi 相关的工作有:Kaldi nnet1神经网络框架中 lstm 作者;发起并推动全球规模的中文源数据集语音项目AISHELL-1、AISHELL-2,已服务于清华大学、北京大学、南洋理工大学、哥伦比亚大学等近200所国内外高校的科研项目。那兴宇本科和博士均毕业于北京理工大学,主要研究方向是语音识别和语音合成。先后任职于中国科学院声学研究所和阿里巴巴机器人,从事语音识别模型训练系统和语音交互系统的发。目前就职于微软,担任资深应用科学家,从事语音识别算法和技术架构的发及业务支持工作。2015年始在Kaldi源项目中贡献代码,参与了nnet3和chain模型的发工作,并维护其中若干示例及OpenSLR的中文语音识别模型。张俊博博士毕业于中国科学院声学研究所,师从颜永红研究员。在小米公司从零起主导构建了整套语音算法研究框架,包括语音识别、智能设备语音唤醒、声纹识别、语音增强、用于语音应用的神经网络部署,均达到了当时的先水平,并发表顶会论文若干篇,为后续的语音研发工作建立了基础。近期上线了用于外语学习的发音质量评测引擎,并给Kaldi贡献了发音良好度评分的代码。<br/>
目录展开

内容简介

序1

序2

好评来袭

作者简介

前言

1 语音识别技术基础

1.1 语音识别极简史

1.2 语音识别系统架构

1.3 一些其他细节

2 Kaldi概要介绍

2.1 发展历史

2.2 设计思想

2.3 安装

2.4 一个简单的示例

2.5 示例介绍

3 数据整理

3.1 数据分集

3.2 数据预处理

3.3 输入和输出机制

3.4 常用数据表单与处理脚本

3.5 语言模型相关文件

4 经典声学建模技术

4.1 特征提取

4.2 单音子模型的训练

4.3 三音子模型训练

4.4 特征变换技术

4.5 区分性训练

5 构图和解码

5.1 N元文法语言模型

5.2 加权有限状态转录机

5.3 用WFST表示语言模型

5.4 状态图的构建

5.5 图的结构优化

5.6 最终状态图的生成

5.7 基于令牌传递的维特比搜索

5.8 SimpleDecoder源码分析

5.9 Kaldi 解码器家族

5.10 带词网格生成的解码

5.11 用语言模型重打分提升识别率

6 深度学习声学建模技术

6.1 基于神经网络的声学模型

6.2 神经网络在Kaldi中的实现

6.3 神经网络模型训练

6.4 神经网络的区分性训练

6.5 与其他深度学习框架的结合

7 关键词搜索与语音唤醒

7.1 关键词搜索技术介绍

7.2 语音检索

7.3 语音唤醒

8 说话人识别

8.1 概述

8.2 基于i-vector和PLDA的说话人识别技术

8.3 基于深度学习的说话人识别技术

8.4 语种识别

9 语音识别应用实践

9.1 语音识别基本应用

9.2 话音检测模块

9.3 模型的适应

9.4 解码器的选择及扩展

附录A 术语列表

附录B 常见问题解答

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部