1.Python源社区资深供稿人撰写,基于Python语言 2.计算语言学领域为数不多的作品之一 3.文本分析实用指南 4.技术实用性强,侧重于技术细节的实现 5.平衡了理论与实战案例之间的关系,可以在掌握理论知识的同时,运行自己的自然语言处理项目 6.提供源码下载 使用Python和源工具可以非常方便地行现代文本分析,因此,在这个文本数据时代有必要掌握现代文本分析的方法。 本书介绍了如何使用自然语言处理和计算语言学算法对所拥有的数据行推理并获得洞察力。这些算法以统计机器学习和人工智能技术为基础。现在,使用了这些算法的工具唾手可得,并可在Python、Gensim和spaCy等工具中使用。 本书从数据清理始介绍,然后介绍了计算语言学的相关概念。在掌握了这些内容之后,下来就可以使用真实的语言和文本,并借助Python来探索统计NLP和深度学习的更复杂领域。你将学到如何使用合适的工具来标注、解析和建模文本,并掌握相应框架工具的使用知识,还将知道何时选为主题模型选择Gensim这样的工具,以及何时使用Keras行深度学习。 本书很好地平衡了理论与实战案例之间的关系,因此你可以在掌握理论知识的同时,执运行自己的自然语言处理项目。你将发现Python这一自然语言处理工具所具有的丰富的生态系统,并将现代文本分析的有趣世界。 本书内容: 文本分析为什么在当今时代如此重要; 理解NLP术语并了解各种Python工具与数据集; 如何预处理以及清理文本数据; 将文本数据转换为矢量空间表示; 使用spaCy处理文本; 针对计算语言学训练自己的NLP模型; 借助于Gensim和scikit-learn,针对文本使用统计学习和主题建模算法; 借助于Keras,使用各种深度学习技术行文本分析。
售 价:¥
纸质售价:¥46.60购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
版权
版权声明
内容提要
关于作者
关于审稿人
前言
资源与支持
第1章 什么是文本分析
1.1 什么是文本分析
1.2 搜集数据
1.3 若输入错误数据,则输出亦为错误数据(garbage in,garbage out)
1.4 为什么你需要文本分析
1.5 总结
第2章 Python文本分析技巧
2.1 为什么用Python来做文本分析
2.2 用Python进行文本操作
2.3 总结
第3章 spaCy语言模型
3.1 spaCy库
3.2 spaCy的安装步骤
3.3 故障排除
3.4 语言模型
3.5 安装语言模型
3.6 安装语言模型的方式及原因
3.7 语言模型的基本预处理操作
3.8 分词
3.9 词性标注
3.10 命名实体识别
3.11 规则匹配
3.12 预处理
3.13 总结
第4章 Gensim:文本向量化、向量变换和n-grams的工具
4.1 Gensim库介绍
4.2 向量以及为什么需要向量化
4.3 词袋(bag-of-words)
4.4 TF-IDF(词频-反向文档频率)
4.5 其他表示方式
4.6 Gensim中的向量变换
4.7 n-grams及其预处理技术
4.8 总结
第5章 词性标注及其应用
5.1 什么是词性标注
5.2 使用Python实现词性标注
5.3 使用spaCy进行词性标注
5.4 从头开始训练一个词性标注模型
5.5 词性标注的代码示例
5.6 总结
第6章 NER标注及其应用
6.1 什么是NER标注
6.2 用Python实现NER标注
6.3 使用spaCy实现NER标注
6.4 从头开始训练一个NER标注器
6.5 NER标注应用实例和可视化
6.6 总结
第7章 依存分析
7.1 依存分析
7.2 用Python实现依存分析
7.3 用spaCy实现依存分析
7.4 从头开始训练一个依存分析器
7.5 总结
第8章 主题模型
8.1 什么是主题模型
8.2 使用Gensim构建主题模型
8.3 隐狄利克雷分配(Latent Dirichlet Allocation)
8.4 潜在语义索引(Latent Semantic Indexing)
8.5 分层狄利特雷过程(Hierarchical Dirichlet Process)
8.6 动态主题模型
8.7 使用scikit-learn构建主题模型
8.8 总结
第9章 高级主题建模
9.1 高级训练技巧
9.2 探索文档
9.3 主题一致性和主题模型的评估
9.4 主题模型的可视化
9.5 总结
第10章 文本聚类和文本分类
10.1 文本聚类
10.2 聚类前的准备工作
10.3 K-means
10.4 层次聚类
10.5 文本分类
10.6 总结
第11章 查询词相似度计算和文本摘要
11.1 文本距离的度量
11.2 查询词相似度计算
11.3 文本摘要
11.4 总结
第12章 Word2Vec、Doc2Vec和Gensim
12.1 Word2Vec
12.2 用Gensim实现Word2Vec
12.3 Doc2Vec
12.4 其他词嵌入技术
12.4.1 GloVe
12.4.2 FastText
12.4.3 WordRank
12.4.4 Varembed
12.4.5 Poincare
12.5 总结
第13章 使用深度学习处理文本
13.1 深度学习
13.2 深度学习在文本上的应用
13.3 文本生成
13.4 总结
第14章 使用Keras和spaCy进行深度学习
14.1 Keras和spaCy
14.2 使用Keras进行文本分类
14.3 使用spaCy进行文本分类
14.4 总结
第15章 情感分析与聊天机器人
15.1 情感分析
15.2 基于Reddit的新闻数据挖掘
15.3 基于Twitter的微博数据挖掘
15.4 聊天机器人
15.5 总结
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜