万本电子书0元读

万本电子书0元读

顶部广告

Python和NLTK自然语言处理电子书

NLTK是自然语言处理领域中非常受欢迎和广泛使用的Python库。NLTK的优在于其简单性,其中大多数复杂的自然语言处理任务使用几行代码即可实现。本书旨在讲述如何用Python和NLTK解决各种自然语言处理任务并发机器学习方面的应用。本书首先介绍任何文本挖掘/ NLP任务中所需的所有预处理步骤,如文本的整理、清洗、语法分析、分类等,然后讲述如何使用NLTK 3行文本处理,如标记文本、替换和校正单词、创建自定义语料库等,讨论了如何使用Python完成自然语言处理任务,如语义分析、情感分析、信息检索等。

售       价:¥

纸质售价:¥102.70购买纸书

265人正在读 | 0人评论 6.2

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
NLTK是自然语言处理领域中非常受欢迎和广泛使用的Python库。NLTK的优在于其简单性,其中大多数复杂的自然语言处理任务使用几行代码即可完成。本书旨在讲述如何用Python和NLTK解决各种自然语言处理任务并发机器学习方面的应用。本书介绍了NLTK的基本模块,讲述了采用NLTK实现自然语言处理的大量技巧,讨论了一些文本处理方法和语言处理技术,展示了使用Python实现NLP项目的大量实践经验。本书主要内容包括文本挖掘/NLP任务中所需的所有预处理步骤,如何使用Python 3的NLTK 3行文本处理,如何通过Python展NLP项目。 本书适合NLP和机器学习领域的爱好者、Python程序员以及机器学习领域的研究人员阅读。<br/>【推荐语】<br/>NLTK是自然语言处理领域中非常受欢迎和广泛使用的Python库。NLTK的优在于其简单性,其中大多数复杂的自然语言处理任务使用几行代码即可实现。本书旨在讲述如何用Python和NLTK解决各种自然语言处理任务并发机器学习方面的应用。本书首先介绍任何文本挖掘/ NLP任务中所需的所有预处理步骤,如文本的整理、清洗、语法分析、分类等,然后讲述如何使用NLTK 3行文本处理,如标记文本、替换和校正单词、创建自定义语料库等,讨论了如何使用Python完成自然语言处理任务,如语义分析、情感分析、信息检索等。 本书适合NLP和机器学习领域的爱好者、对文本处理感兴趣的读者、想要快速学习NLTK的Python程序员以及机器学习领域的专业人士阅读。 本书包括以下主要内容 ● 使用词性标注和分块的方法对文本行整理与清洗。 ● 把文本标记为句子,把句子标记为单词。 ● 文本分类和情感分析。 ● 字符串匹配算法和归一化方法。 ● 信息检索和文本摘要的概念。 ● 使用Python解决各种NLP任务的方式。<br/>【作者】<br/>Nitin Hardeniya是一位数据科学家,精通Python、NLTK、机器学习,与多家知名公司都有长期的合作。他的业务范围比较广,擅长解决不同领域的各种业务问题。他发表过5篇专利。<br/>
目录展开

版权

版权声明

内容提要

译者序

前言

模块1 NLTK基础知识

第1章 自然语言处理简介

1.1 为什么要学习NLP

1.2 从Python的基本知识开始

1.2.1 列表

1.2.2 自助

1.2.3 正则表达式

1.2.4 词典

1.2.5 编写函数

1.3 NLTK

1.4 试一试

1.5 本章小结

第2章 文本的整理和清洗

2.1 文本整理

2.2 文本清洗

2.3 句子拆分器

2.4 标记解析

2.5 词干提取

2.6 词形还原

2.7 停用词删除

2.8 生僻字删除

2.9 拼写校正

2.10 试一试

2.11 本章小结

第3章 词性标注

3.1 什么是词性标注

3.1.1 斯坦福标注器

3.1.2 深入了解标注器

3.1.3 序列标注器

3.1.4 布里尔标注器

3.1.5 基于标注器的机器学习

3.2 命名实体识别

NER标注器

3.3 试一试

3.4 本章小结

第4章 对文本的结构进行语法分析

4.1 浅层语法分析与深层语法分析

4.2 语法分析的两种方法

4.3 为什么需要语法分析

4.4 不同类型的语法分析器

4.4.1 递归下降的语法分析器

4.4.2 移位归约语法分析器

4.4.3 图表语法分析器

4.4.4 正则表达式语法分析器

4.5 依存分析

4.6 组块化

4.7 信息抽取

4.7.1 命名实体识别

4.7.2 关系抽取

4.8 本章小结

第5章 NLP应用

5.1 构建第一个NLP应用

5.2 其他的NLP应用

5.2.1 机器翻译

5.2.2 统计机器翻译

5.2.3 信息检索

5.2.4 语音识别

5.2.5 文本分类

5.2.6 信息提取

5.2.7 问答系统

5.2.8 对话系统

5.2.9 词义消歧

5.2.10 主题建模

5.2.11 语言检测

5.2.12 光学字符识别

5.3 本章小结

第6章 文本分类

6.1 机器学习

6.2 文本分类

6.3 采样

6.3.1 朴素贝叶斯

6.3.2 决策树

6.3.3 随机梯度下降

6.3.4 逻辑回归

6.3.5 支持向量机

6.4 随机森林算法

6.5 文本聚类

K均值算法

6.6 文本的主题建模

安装gensim

6.7 参考资料

6.8 本章小结

第7章 网络爬取

7.1 网络爬虫

7.2 编写第一个爬虫程序

7.3 Scra py中的数据流

7.3.1 Scrapy命令行界面

7.3.2 项

7.4 站点地图蜘蛛

7.5 项管道

7.6 外部参考

7.7 本章小结

第8章 与其他Python库一同使用NLTK

8.1 NumPy

8.1.1 ndarray

8.1.2 基本操作

8.1.3 从数组中提取数据

8.1.4 复杂的矩阵运算

8.2 SciP y

8.2.1 线性代数

8.2.2 特征值和特征向量

8.2.3 稀疏矩阵

8.2.4 优化

8.3 Pandas

8.3.1 读取数据

8.3.2 时序数据

8.3.3 列转换

8.3.4 噪声数据

8.4 Matplotlib

8.4.1 subplot

8.4.2 添加轴

8.4.3 散点图

8.4.4 柱状图

8.4.5 3D图

8.5 外部参考

8.6 本章小结

第9章 使用Python进行社交媒体挖掘

9.1 数据收集

推特

9.2 数据提取

热门话题

9.3 地理可视化

9.3.1 影响者检测

9.3.2 Facebook

9.3.3 影响者的朋友

9.4 本章小结

第10章 大规模的文本挖掘

10.1 在Hadoop上使用Python的不同方法

10.1.1 Python的流

10.1.2 Hive/Pig UDF

10.1.3 流包装器

10.2 在Hadoop上运行NLTK

10.2.1 UDF

10.2.2 Python流

10.3 在Hadoop上运行scikit-learn

10.4 PySpark

10.5 本章小结

模块2 使用Python 3的NLTK 3进行文本处理

第1章 标记文本和WordNet的基础

1.1 引言

1.2 将文本标记成句子

1.2.1 准备工作

1.2.2 工作方式

1.2.3 工作原理

1.2.4 更多信息

1.2.5 请参阅

1.3 将句子标记成单词

1.3.1 工作方式

1.3.2 工作原理

1.3.3 更多信息

1.3.4 请参阅

1.4 使用正则表达式标记语句

1.4.1 准备工作

1.4.2 工作方式

1.4.3 工作原理

1.4.4 更多信息

1.4.5 请参阅

1.5 训练语句标记生成器

1.5.1 准备工作

1.5.2 工作方式

1.5.3 工作原理

1.5.4 更多信息

1.5.5 请参阅

1.6 在已标记的语句中过滤停用词

1.6.1 准备工作

1.6.2 工作方式

1.6.3 工作原理

1.6.4 更多信息

1.6.5 请参阅

1.7 查找WordNet中单词的Synset

1.7.1 准备工作

1.7.2 工作方式

1.7.3 工作原理

1.7.4 更多信息

1.7.5 请参阅

1.8 在WordNet中查找词元和同义词

1.8.1 工作方式

1.8.2 工作原理

1.8.3 更多信息

1.8.4 请参阅

1.9 计算WordNet和Synset的相似度

1.9.1 工作方式

1.9.2 工作原理

1.9.3 更多信息

1.9.4 请参阅

1.10 发现单词搭配

1.10.1 准备工作

1.10.2 工作方式

1.10.3 工作原理

1.10.4 更多信息

1.10.5 请参阅

第2章 替换和校正单词

2.1 引言

2.2 词干提取

2.2.1 工作方式

2.2.2 工作原理

2.2.3 更多信息

2.2.4 请参阅

2.3 使用WordNet进行词形还原

2.3.1 准备工作

2.3.2 工作方式

2.3.3 工作原理

2.3.4 更多信息

2.3.5 请参阅

2.4 基于匹配的正则表达式替换单词

2.4.1 准备工作

2.4.2 工作方式

2.4.3 工作原理

2.4.4 更多信息

2.4.5 请参阅

2.5 移除重复字符

2.5.1 准备工作

2.5.2 工作方式

2.5.3 工作原理

2.5.4 更多信息

2.5.5 请参阅

2.6 使用Enchant进行拼写校正

2.6.1 准备工作

2.6.2 工作方式

2.6.3 工作原理

2.6.4 更多信息

2.6.5 请参阅

2.7 替换同义词

2.7.1 准备工作

2.7.2 工作方式

2.7.3 工作原理

2.7.4 更多信息

2.7.5 请参阅

2.8 使用反义词替换否定形式

2.8.1 工作方式

2.8.2 工作原理

2.8.3 更多信息

2.8.4 请参阅

第3章 创建语料库

3.1 引言

3.2 建立自定义语料库

3.2.1 准备工作

3.2.2 工作方式

3.2.3 工作原理

3.2.4 更多信息

3.2.5 请参阅

3.3 创建词汇表语料库

3.3.1 准备工作

3.3.2 工作方式

3.3.3 工作原理

3.3.4 更多信息

3.3.5 请参阅

3.4 创建已标记词性单词的语料库

3.4.1 准备工作

3.4.2 工作方式

3.4.3 工作原理

3.4.4 更多信息

3.4.5 请参阅

3.5 创建已组块短语的语料库

3.5.1 准备工作

3.5.2 工作方式

3.5.3 工作原理

3.5.4 更多信息

3.5.5 请参阅

3.6 创建已分类文本的语料库

3.6.1 准备工作

3.6.2 工作方式

3.6.3 工作原理

3.6.4 更多信息

3.6.5 请参阅

3.7 创建已分类组块语料库读取器

3.7.1 准备工作

3.7.2 工作方式

3.7.3 工作原理

3.7.4 更多信息

3.7.5 请参阅

3.8 懒惰语料库加载

3.8.1 工作方式

3.8.2 工作原理

3.8.3 更多信息

3.9 创建自定义语料库视图

3.9.1 工作方式

3.9.2 工作原理

3.9.3 更多信息

3.9.4 请参阅

3.10 创建基于MongoDB的语料库读取器

3.10.1 准备工作

3.10.2 工作方式

3.10.3 工作原理

3.10.4 更多信息

3.10.5 请参阅

3.11 在加锁文件的情况下编辑语料库

3.11.1 准备工作

3.11.2 工作方式

3.11.3 工作原理

第4章 词性标注

4.1 引言

4.2 默认标注

4.2.1 准备工作

4.2.2 工作方式

4.2.3 工作原理

4.2.4 更多信息

4.2.5 请参阅

4.3 训练一元组词性标注器

4.3.1 工作方式

4.3.2 工作原理

4.3.3 更多信息

4.3.4 请参阅

4.4 回退标注的组合标注器

4.4.1 工作方式

4.4.2 工作原理

4.4.3 更多信息

4.4.4 请参阅

4.5 训练和组合N元标注器

4.5.1 准备工作

4.5.2 工作方式

4.5.3 工作原理

4.5.4 更多信息

4.5.5 请参阅

4.6 创建似然单词标签的模型

4.6.1 工作方式

4.6.2 工作原理

4.6.3 更多信息

4.6.4 请参阅

4.7 使用正则表达式标注

4.7.1 准备工作

4.7.2 工作方式

4.7.3 工作原理

4.7.4 更多信息

4.7.5 请参阅

4.8 词缀标签

4.8.1 工作方式

4.8.2 工作原理

4.8.3 更多信息

4.8.4 请参阅

4.9 训练布里尔标注器

4.9.1 工作方式

4.9.2 工作原理

4.9.3 更多信息

4.9.4 请参阅

4.10 训练TnT标注器

4.10.1 工作方式

4.10.2 工作原理

4.10.3 更多信息

4.10.4 请参阅

4.11 使用WordNet进行标注

4.11.1 准备工作

4.11.2 工作方式

4.11.3 工作原理

4.11.4 请参阅

4.12 标注专有名词

4.12.1 工作方式

4.12.2 工作原理

4.12.3 请参阅

4.13 基于分类器的标注

4.13.1 工作方式

4.13.2 工作原理

4.13.3 更多信息

4.13.4 请参阅

4.14 使用NLTK训练器训练标注器

4.14.1 工作方式

4.14.2 工作原理

4.14.3 更多信息

4.14.4 请参阅

第5章 提取组块

5.1 引言

5.2 使用正则表达式组块和隔断

5.2.1 准备工作

5.2.2 工作方式

5.2.3 工作原理

5.2.4 更多信息

5.2.5 请参阅

5.3 使用正则表达式合并和拆分组块

5.3.1 工作方式

5.3.2 工作原理

5.3.3 更多信息

5.3.4 请参阅

5.4 使用正则表达式扩展和删除组块

5.4.1 工作方式

5.4.2 工作原理

5.4.3 更多信息

5.4.4 请参阅

5.5 使用正则表达式进行部分解析

5.5.1 工作方式

5.5.2 工作原理

5.5.3 更多信息

5.5.4 请参阅

5.6 训练基于标注器的组块器

5.6.1 工作方式

5.6.2 工作原理

5.6.3 更多信息

5.6.4 请参阅

5.7 基于分类的分块

5.7.1 工作方式

5.7.2 工作原理

5.7.3 更多信息

5.7.4 请参阅

5.8 提取命名实体

5.8.1 工作方式

5.8.2 工作原理

5.8.3 更多信息

5.8.4 请参阅

5.9 提取专有名词组块

5.9.1 工作方式

5.9.2 工作原理

5.9.3 更多信息

5.10 提取部位组块

5.10.1 工作方式

5.10.2 工作原理

5.10.3 更多信息

5.10.4 请参阅

5.11 训练命名实体组块器

5.11.1 工作方式

5.11.2 工作原理

5.11.3 更多信息

5.11.4 请参阅

5.12 使用NLTK训练器训练组块器

5.12.1 工作方式

5.12.2 工作原理

5.12.3 更多信息

5.12.4 请参阅

第6章 转换组块与树

6.1 引言

6.2 过滤句子中无意义的单词

6.2.1 准备工作

6.2.2 工作方式

6.2.3 工作原理

6.2.4 更多信息

6.2.5 请参阅

6.3 纠正动词形式

6.3.1 准备工作

6.3.2 工作方式

6.3.3 工作原理

6.3.4 请参阅

6.4 交换动词短语

6.4.1 工作方式

6.4.2 工作原理

6.4.3 更多信息

6.4.4 请参阅

6.5 交换名词基数

6.5.1 工作方式

6.5.2 工作原理

6.5.3 请参阅

6.6 交换不定式短语

6.6.1 工作方式

6.6.2 工作原理

6.6.3 更多信息

6.6.4 请参阅

6.7 单数化复数名词

6.7.1 工作方式

6.7.2 工作原理

6.7.3 请参阅

6.8 链接组块变换

6.8.1 工作方式

6.8.2 工作原理

6.8.3 更多信息

6.8.4 请参阅

6.9 将组块树转换为文本

6.9.1 工作方式

6.9.2 工作原理

6.9.3 更多信息

6.9.4 请参阅

6.10 平展深度树

6.10.1 准备工作

6.10.2 工作方式

6.10.3 工作原理

6.10.4 更多信息

6.10.5 请参阅

6.11 创建浅树

6.11.1 工作方式

6.11.2 工作原理

6.11.3 请参阅

6.12 转换树标签

6.12.1 准备工作

6.12.2 工作方式

6.12.3 工作原理

6.12.4 请参阅

第7章 文本分类

7.1 引言

7.2 词袋特征提取

7.2.1 工作方式

7.2.2 工作原理

7.2.3 更多信息

7.2.4 请参阅

7.3 训练朴素贝叶斯分类器

7.3.1 准备工作

7.3.2 工作方式

7.3.3 工作原理

7.3.4 更多信息

7.3.5 请参阅

7.4 训练决策树分类器

7.4.1 工作方式

7.4.2 工作原理

7.4.3 更多信息

7.4.4 请参阅

7.5 训练最大熵分类器

7.5.1 准备工作

7.5.2 工作方式

7.5.3 工作原理

7.5.4 更多信息

7.5.5 请参阅

7.6 训练scikit-learn分类器

7.6.1 准备工作

7.6.2 工作方式

7.6.3 工作原理

7.6.4 更多信息

7.6.5 请参阅

7.7 衡量分类器的精准率和召回率

7.7.1 工作方式

7.7.2 工作原理

7.7.3 更多信息

7.7.4 请参阅

7.8 计算高信息量单词

7.8.1 工作方式

7.8.2 工作原理

7.8.3 更多信息

7.8.4 请参阅

7.9 使用投票组合分类器

7.9.1 准备工作

7.9.2 工作方式

7.9.3 工作原理

7.9.4 请参阅

7.10 使用多个二元分类器分类

7.10.1 准备工作

7.10.2 工作方式

7.10.3 工作原理

7.10.4 更多信息

7.10.5 请参阅

7.11 使用NLTK训练器训练分类器

7.11.1 工作方式

7.11.2 工作原理

7.11.3 更多信息

7.11.4 请参阅

第8章 分布式进程和大型数据集的处理

8.1 引言

8.2 使用execnet进行分布式标注

8.2.1 准备工作

8.2.2 工作方式

8.2.3 工作原理

8.2.4 更多内容

8.2.5 请参阅

8.3 使用execnet进行分布式组块

8.3.1 准备工作

8.3.2 工作方式

8.3.3 工作原理

8.3.4 更多内容

8.3.5 请参阅

8.4 使用execnet并行处理列表

8.4.1 工作方式

8.4.2 工作原理

8.4.3 更多内容

8.4.4 请参阅

8.5 在Redis中存储频率分布

8.5.1 准备工作

8.5.2 工作方式

8.5.3 工作原理

8.5.4 更多内容

8.5.5 请参阅

8.6 在Redis中存储条件频率分布

8.6.1 准备工作

8.6.2 工作方式

8.6.3 工作原理

8.6.4 更多内容

8.6.5 请参阅

8.7 在Redis中存储有序字典

8.7.1 准备工作

8.7.2 工作方式

8.7.3 工作原理

8.7.4 更多内容

8.7.5 请参阅

8.8 使用Redis和execnet进行分布式单词评分

8.8.1 准备工作

8.8.2 工作方式

8.8.3 工作原理

8.8.4 更多内容

8.8.5 请参阅

第9章 解析特定的数据类型

9.1 引言

9.2 使用dateutil解析日期和时间

9.2.1 准备工作

9.2.2 工作方式

9.2.3 工作原理

9.2.4 更多信息

9.2.5 请参阅

9.3 时区的查找和转换

9.3.1 准备工作

9.3.2 工作方式

9.3.3 工作原理

9.3.4 更多信息

9.3.5 请参阅

9.4 使用lxml从HTML中提取URL

9.4.1 准备工作

9.4.2 工作方式

9.4.3 工作原理

9.4.4 更多信息

9.4.5 请参阅

9.5 清理和剥离HTML

9.5.1 准备工作

9.5.2 工作方式

9.5.3 工作原理

9.5.4 更多信息

9.5.5 请参阅

9.6 使用Beautiful Soup转换HTML实体

9.6.1 准备工作

9.6.2 工作方式

9.6.3 工作原理

9.6.4 更多信息

9.6.5 请参阅

9.7 检测和转换字符编码

9.7.1 准备工作

9.7.2 工作方式

9.7.3 工作原理

9.7.4 更多信息

9.7.5 请参阅

附录A 宾州treebank词性标签

模块3 使用Python掌握自然语言处理

第1章 使用字符串

1.1 标记化

1.1.1 将文本标记为句子

1.1.2 其他语言文字的标记化

1.1.3 将句子标记为单词

1.1.4 使用TreebankWordTokenizer进行标记化

1.1.5 使用正则表达式进行标记化

1.2 规范化

1.2.1 消除标点符号

1.2.2 转化为小写和大写

1.2.3 处理停用词

1.2.4 计算英语中的停用词

1.3 替代和纠正标记

1.3.1 使用正则表达式替换单词

1.3.2 使用一个文本替换另一个文本的示例

1.3.3 在标记化之前进行替代

1.3.4 处理重复的字符

1.3.5 删除重复字符的示例

1.3.6 使用单词的同义词替换单词

1.4 在文本上应用齐夫定律

1.5 相似性量度

1.5.1 使用编辑距离算法应用相似性量度

1.5.2 使用杰卡德系数应用相似性量度

1.5.3 使用史密斯-沃特曼算法应用相似性量度

1.5.4 其他字符串相似性指标

1.6 本章小结

第2章 统计语言模型

2.1 单词频率

2.1.1 对给定文本进行最大似然估计

2.1.2 隐马尔可夫模型估计

2.2 在MLE模型上应用平滑

2.2.1 加一平滑法

2.2.2 古德-图灵算法

2.2.3 聂氏估计

2.2.4 威滕·贝尔估计

2.3 为MLE指定回退机制

2.4 应用数据插值获得混合和匹配

2.5 应用困惑度评估语言模型

2.6 在建模语言中应用梅特罗波利斯-黑斯廷斯算法

2.7 在语言处理中应用吉布斯采样

2.8 本章小结

第3章 词语形态学——试一试

3.1 词语形态学

3.2 词根还原器

3.3 词形还原

3.4 开发用于非英语语言的词根还原器

3.5 词语形态分析器

3.6 词语形态生成器

3.7 搜索引擎

3.8 本章小结

第4章 词性标注——识别单词

4.1 词性标注

默认标注

4.2 创建POS标注的语料库

4.3 选择某个机器学习算法

4.4 涉及n元组方法的统计建模

4.5 使用POS标注的语料库开发组块器

4.6 本章小结

第5章 解析——分析训练数据

5.1 解析

5.2 构建树库

5.3 从树库中提取上下文无关文法的规则

5.4 从CFG中创建概率上下文无关的文法

5.5 CYK图解析算法

5.6 厄雷图解析算法

5.7 本章小结

第6章 语义分析——意义重大

6.1 语义分析

6.1.1 NER简介

6.1.2 使用隐马尔可夫模型的NER系统

6.1.3 使用机器学习工具包训练NER

6.1.4 使用POS标注的NER

6.2 从Wordnet中生成同义词集ID

6.3 使用Wordnet消除歧义

6.4 本章小结

第7章 情感分析——我很高兴

7.1 情感分析

使用NER的情感分析

7.2 使用机器学习的情感分析

NER系统的评价

7.3 本章小结

第8章 信息检索——访问信息

8.1 信息检索

8.1.1 停用词删除

8.1.2 利用向量空间模型进行信息检索

8.2 向量空间评分以及与查询操作器交互

8.3 利用隐含语义索引开发IR系统

8.4 文本摘要

8.5 问答系统

8.6 本章小结

第9章 话语分析——知识就是信仰

9.1 话语分析

9.1.1 使用定中心理论进行话语分析

9.1.2 回指解析

9.2 本章小结

第10章 NLP系统的评估——性能分析

10.1 对NLP系统进行评估的需求

10.1.1 NLP工具(POS标注器、词干还原器和形态分析器)的评估

10.1.2 使用黄金数据评估解析器

10.2 IR系统的评估

10.3 错误识别的指标

10.4 基于词汇匹配的指标

10.5 基于语法匹配的指标

10.6 使用浅层语义匹配的指标

10.7 本章小结

参考书目

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部