本书是一本全面介绍自然语言理解技术的实用指南,涵盖自然语言理解的常用技术和众多资源。书中不仅通过实际示例逐步解释自然语言理解方面的基本概念、常用技术及其应用方法,还详细讲解了每种技术的适用场景。此外,本书还介绍了实用的自然语言理解Python库,以及常见问题的解决方案,如数据收集、系统评估以及自然语言理解应用程序的部署等。通过阅读本书,你将熟悉自然语言理解、深度学习和大语言模型方面的基础知识,并掌握足够的技能,可以将所学知识应用于自然语言理解学术研究和实际的应用项目中。
售 价:¥
纸质售价:¥69.30购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
前言
审校者简介
第一部分 自然语言理解技术入门
第1章 自然语言理解方法与应用程序
1.1 自然语言基础知识
1.2 自然语言与字符编码
1.3 对话式人工智能与自然语言理解
1.4 交互式应用程序——聊天机器人与语音助手
1.4.1 通用语音助手
1.4.2 企业助手
1.4.3 翻译
1.4.4 教育
1.5 非交互式应用程序
1.5.1 分类
1.5.2 情感分析
1.5.3 垃圾邮件与网络钓鱼检测
1.5.4 虚假新闻检测
1.5.5 文档检索
1.5.6 分析
1.5.7 信息抽取
1.5.8 机器翻译
1.5.9 其他应用程序
1.5.10 应用程序类型总结
1.6 Python自然语言处理展望
1.7 本章小结
第2章 识别自然语言理解问题
2.1 识别适合当前技术水平的问题
2.1.1 自然语言理解难以解决的问题
2.1.2 不需要自然语言理解的应用程序
2.1.3 训练数据
2.1.4 应用数据
2.2 开发成本
2.3 维护成本
2.4 决定是否使用自然语言理解的流程
2.5 本章小结
第二部分 自然语言理解系统开发与测试
第3章 自然语言理解方法
3.1 基于规则的方法
3.1.1 词与词典
3.1.2 词性标注
3.1.3 语法
3.1.4 句法分析
3.1.5 语义分析
3.1.6 语用分析
3.1.7 pipeline
3.2 传统的机器学习算法
3.2.1 文档表示
3.2.2 文档分类
3.3 深度学习方法
3.4 预训练模型
3.5 选择自然语言理解方法需要考虑的因素
3.6 本章小结
第4章 用于自然语言理解的Python库与工具
4.1 技术要求
4.2 安装Python
4.3 安装JupyterLab和GitHub
4.3.1 JupyterLab
4.3.2 GitHub
4.4 常用的自然语言处理Python库
4.4.1 NLTK
4.4.2 spaCy
4.4.3 Keras
4.4.4 其他自然语言处理Python库
4.4.5 自然语言处理Python库的选择
4.4.6 其他有用的Python库
4.5 一个示例
4.5.1 设置JupyterLab
4.5.2 处理一句话
4.5.3 查看语料库属性
4.6 本章小结
第5章 数据收集与数据预处理
5.1 数据收集与数据标注
5.1.1 收集应用程序所需数据
5.1.2 收集科研项目所需数据
5.1.3 元数据
5.1.4 常用语料库
5.2 确保数据的隐私性并遵守道德准则
5.2.1 确保训练数据的隐私
5.2.2 确保运行时数据的隐私
5.2.3 人道地对待实验参与者
5.2.4 人道地对待众包工作者
5.3 数据预处理
5.3.1 删除非文本数据
5.3.2 文本正则化
5.3.3 拼写错误校正
5.4 针对具体应用程序的数据预处理
5.4.1 用类token替换单词和数字
5.4.2 修改数据
5.4.3 特定领域的停用词
5.4.4 删除HTML标记
5.4.5 数据不平衡问题
5.4.6 文本预处理pipeline
5.5 选择合适的数据预处理方法
5.6 本章小结
第6章 数据探索与数据可视化
6.1 为什么要进行数据可视化
6.2 数据探索
6.2.1 频率分布
6.2.2 文档相似性度量
6.3 数据可视化注意事项
6.4 基于数据可视化信息对后续数据处理做出决策
6.5 本章小结
第7章 自然语言处理方法选择与数据表示
7.1 自然语言处理方法选择
7.1.1 选择适合任务的方法
7.1.2 从数据出发
7.1.3 计算效率
7.1.4 初步研究
7.2 自然语言处理应用程序中的语言表示
7.3 使用数学向量表示语言
7.4 使用上下文无关向量表示单词
7.5 使用上下文相关向量表示单词
7.6 本章小结
第8章 基于规则的方法
8.1 基于规则的方法简介
8.2 为什么要使用规则
8.3 正则表达式
8.3.1 使用正则表达式识别、分析和替换字符串
8.3.2 常用的正则表达式技巧
8.4 词汇级分析
8.4.1 词形还原
8.4.2 本体
8.5 句子级分析
8.5.1 句法分析
8.5.2 语义分析与槽填充
8.6 本章小结
第9章 机器学习第1部分——统计机器学习
9.1 模型评估方法简介
9.2 基于词频逆文档频率的文档表示与基于朴素贝叶斯算法的文档分类
9.2.1 词频逆文档频率
9.2.2 朴素贝叶斯文档分类
9.2.3 基于词频逆文档频率的文档表示与基于朴素贝叶斯算法的文档分类示例
9.3 基于支持向量机的文档分类
9.4 基于条件随机场模型的槽填充
9.5 本章小结
第10章 机器学习第2部分——神经网络与深度学习
10.1 神经网络基础
10.2 全连接神经网络分类示例
10.3 超参数与超参数调优
10.4 循环神经网络
10.5 卷积神经网络
10.6 本章小结
第11章 机器学习第3部分——Transformer与大语言模型
11.1 技术要求
11.2 Transformer和大语言模型概述
11.2.1 注意力机制简介
11.2.2 Transformer中的注意力机制
11.2.3 大语言模型或预训练模型
11.3 BERT模型及其衍生模型
11.4 BERT模型分类示例
11.4.1 下载数据集
11.4.2 将数据集切分为训练数据集、验证数据集和测试数据集
11.4.3 加载BERT模型
11.4.4 创建微调模型
11.4.5 定义损失函数和模型度量指标
11.4.6 定义优化器和训练轮数
11.4.7 编译模型
11.4.8 训练模型
11.4.9 绘制训练过程
11.4.10 使用测试数据评估模型
11.4.11 保存模型
11.5 基于云的大语言模型
11.5.1 ChatGPT
11.5.2 GPT-3
11.6 本章小结
第12章 无监督学习方法应用
12.1 无监督学习的概念
12.2 基于聚类和标签生成的主题建模
12.2.1 基于语义相似程度的文档分组
12.2.2 使用BERTopic模型处理20newsgroups数据集
12.2.3 聚类和主题建模之后的工作
12.3 充分利用数据的部分监督学习方法
12.4 本章小结
第13章 模型评估
13.1 为什么要评估自然语言理解系统
13.2 评估范式
13.2.1 标准评估指标
13.2.2 评估系统的输出
13.2.3 消融实验
13.2.4 共享任务
13.3 数据切分
13.4 评估指标
13.4.1 准确率和错误率
13.4.2 精度、召回率和F1分数
13.4.3 ROC曲线和曲线下面积
13.4.4 混淆矩阵
13.5 用户测试
13.6 差异的统计显著性
13.7 比较三种文本分类方法
13.7.1 小型Transformer模型
13.7.2 TF-IDF评估
13.7.3 较大规模BERT模型
13.8 本章小结
第三部分 自然语言理解系统的大规模应用
第14章 如果系统不工作怎么办
14.1 技术要求
14.2 找出系统不工作的原因
14.3 解决系统准确率过低的问题
14.3.1 更改数据
14.3.2 重构应用程序
14.4 系统部署
14.5 部署之后的问题
14.6 本章小结
第15章 总结与展望
15.1 本书概述
15.2 更高的准确率和更快的训练速度
15.2.1 更高的准确率
15.2.2 更快的训练速度
15.2.3 其他需要改进的地方
15.3 超越当前技术水平的应用程序
15.3.1 处理长文档
15.3.2 理解和创建视频
15.3.3 翻译和生成手语
15.3.4 创作引人入胜的小说
15.4 自然语言理解未来发展方向
15.4.1 将自然语言理解技术扩展到新语言中
15.4.2 实时语音到语音翻译
15.4.3 多模态交互
15.4.4 偏见检测与校正
15.5 本章小结
15.6 扩展阅读
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜