万本电子书0元读

万本电子书0元读

顶部广告

Python自然语言处理(微课版)电子书

1、本书使用Python 3版本的数据分析,如数据分析基础工具的Numpy、数据可视化工具的Matplotlib和Seaborn、数据处理工具的Pandas、数据统计工具的Scipy、机器学习工具的Sklearn以及自然语言处理的相关库。 2、本书代码采用基于Python的各类库实现,全部程序都通过上机调试和运行。在讲解基本理论的基础上加强动手实践能力的培养,让学生在操作中学会Python编程。 3、本书针对机器学习、数据分析、Python相关技术和自然语言处理的初、中级读者,从零始逐行讲解代码,使其熟悉并实现自然语言处理的基本内容。

售       价:¥

纸质售价:¥52.30购买纸书

100人正在读 | 0人评论 6.6

作       者:周元哲

出  版  社:清华大学出版社

出版时间:2021-11-01

字       数:11.1万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(4条)
  • 读书简介
  • 目录
  • 累计评论(4条)
本书内容包括自然语言处理概述、Python语言简述、Python数据类型、Python流程控制、Python函数、Python数据科学、Sklearn和NLTK、语料清洗、特征工程、中文分词、文本分类、文本聚类、评价指标、信息提取和情感分析。附录给出教学大纲。 本书采用基于Python语言的Sklearn平台和NLTK实现,便于学生更快地掌握自然语言处理的基本思想。实践是**的学习方法,本书的所有程序都在Anaconda下调试和运行。本书配有源代码、教学课件、语料集、教学大纲、程序安装包、每章的视频讲解等资料。 本书内容精练、文字简洁、结构合理,实训题目经典实用、综合性强,面向初、中级读者,由“门”起步,侧重“提高”。特别适合作为高等院校自然语言处理和机器学习门的本科或研究生教材或参考书,也可以供从事人工智能等工作的技术人员应用参考。<br/>【推荐语】<br/>1、本书使用Python 3版本的数据分析,如数据分析基础工具的Numpy、数据可视化工具的Matplotlib和Seaborn、数据处理工具的Pandas、数据统计工具的Scipy、机器学习工具的Sklearn以及自然语言处理的相关库。 2、本书代码采用基于Python的各类库实现,全部程序都通过上机调试和运行。在讲解基本理论的基础上加强动手实践能力的培养,让学生在操作中学会Python编程。 3、本书针对机器学习、数据分析、Python相关技术和自然语言处理的初、中级读者,从零始逐行讲解代码,使其熟悉并实现自然语言处理的基本内容。 4、本书逻辑严谨,内容精练,文字简洁,通俗易懂,实训题目经典实用,综合性强。 5、本书配套资源,读者可登录清华大学出版社官网或扫描书中二维码获取。<br/>【作者】<br/>周元哲,讲师,1974年9月生,硕士。西安邮电学院从事计算机专业科研和教学。讲授《 C程序设计语言》、《数据库原理》、《visual Basic程序设计语言》、《软件测试》《Python程序设计》《软件工程》等课程。<br/>
目录展开

封面页

书名页

版权页

内容简介

前言PREFACE

第1章 自然语言处理概述

1.1 人工智能发展历程

1.1.1 第一阶段:20年黄金时代

1.1.2 第二阶段:第一次寒冬

1.1.3 第三阶段:繁荣期

1.1.4 第四阶段:第二次寒冬

1.1.5 第五阶段:稳健时代

1.2 自然语言处理

1.2.1 概述

1.2.2 发展历程

1.2.3 处理流程

1.2.4 研究内容

1.3 机器学习算法

1.3.1 监督学习

1.3.2 无监督学习

1.4 自然语言处理相关库

1.4.1 NumPy

1.4.2 Matplotlib

1.4.3 Pandas

1.4.4 SciPy

1.4.5 NLTK

1.4.6 SnowNLP

1.4.7 Sklearn

1.5 语料库

1.5.1 认识语料库

1.5.2 分类

1.5.3 构建原则

1.5.4 常用语料库

1.5.5 搜狗新闻语料库

第2章 Python语言简述

2.1 Python简介

2.1.1 Python发展历程

2.1.2 Python的特点

2.1.3 Python应用场合

2.2 Python解释器

2.2.1 Ubuntu下安装Python

2.2.2 Windows下安装Python

2.3 Python编辑器

2.3.1 IDLE

2.3.2 VS Code

2.3.3 PyCharm

2.3.4 Anaconda

2.3.5 Jupyter

2.4 代码书写规则

2.4.1 缩进

2.4.2 多行语句

2.4.3 注释

2.4.4 编码习惯

2.5 自学网站

2.5.1 菜鸟网站

2.5.2 廖雪峰学Python网站

2.5.3 Python官方网站

2.5.4 Python-100天从新手到大师网站

第3章 Python数据类型

3.1 变量

3.1.1 变量命名

3.1.2 变量引用

3.2 运算符

3.2.1 算术运算符

3.2.2 关系运算符

3.2.3 赋值运算符

3.2.4 逻辑运算符

3.2.5 位运算符

3.2.6 成员运算符

3.2.7 身份运算符

3.3 表达式

3.3.1 概念

3.3.2 操作

3.4 数据类型

3.5 数字

3.5.1 概念

3.5.2 操作

3.6 字符串

3.6.1 概念

3.6.2 操作

3.7 列表

3.7.1 概念

3.7.2 操作

3.8 元组

3.8.1 概念

3.8.2 操作

3.9 字典

3.9.1 字典的概念

3.9.2 字典操作

3.9.3 字典举例

3.10 集合

3.10.1 集合的概念

3.10.2 集合操作

3.10.3 集合举例

3.11 组合数据类型

3.11.1 相互关系

3.11.2 数据类型转换

第4章 Python流程控制

4.1 流程结构

4.2 顺序结构

4.2.1 输入输出

4.2.2 举例

4.3 选择结构

4.3.1 单分支

4.3.2 双分支

4.3.3 多分支

4.3.4 分支嵌套

4.4 循环概述

4.4.1 循环结构

4.4.2 循环分类

4.5 while语句

4.5.1 基本形式

4.5.2 else语句

4.5.3 无限循环

4.6 for语句

4.6.1 应用序列类型

4.6.2 内置函数range()

4.7 循环嵌套

4.7.1 原理

4.7.2 实现

4.8 辅助语句

4.8.1 break语句

4.8.2 continue语句

4.8.3 pass语句

第5章 Python函数

5.1 函数声明与调用

5.1.1 函数声明

5.1.2 函数调用

5.1.3 函数返回值

5.2 参数传递

5.2.1 实参与形参

5.2.2 传对象引用

5.3 参数分类

5.3.1 必备参数

5.3.2 默认参数

5.3.3 关键参数

5.3.4 不定长参数

5.4 两类特殊函数

5.4.1 匿名函数

5.4.2 递归函数

第6章 Python数据科学

6.1 科学计算

6.2 NumPy

6.2.1 认识NumPy

6.2.2 创建数组

6.2.3 查看数组

6.2.4 索引和切片

6.2.5 矩阵运算

6.3 Matplotlib

6.3.1 认识Matplotlib

6.3.2 线形图

6.3.3 散点图

6.3.4 饼状图

6.3.5 直方图

6.4 Pandas

6.4.1 认识Pandas

6.4.2 Series

6.4.3 DataFrame

6.4.4 Index

6.4.5 Plot

6.5 SciPy

6.5.1 认识SciPy

6.5.2 稀疏矩阵

6.5.3 线性代数

6.6 Seaborn

6.6.1 认识Seaborn

6.6.2 图表分类

第7章 Sklearn和NLTK

7.1 Sklearn简介

7.2 安装Sklearn

7.3 数据集

7.3.1 小数据集

7.3.2 大数据集

7.3.3 生成数据集

7.4 机器学习流程

7.4.1 语料清洗

7.4.2 划分数据集

7.4.3 特征工程

7.4.4 机器算法

7.4.5 模型评估

7.5 NLTK简介

7.6 NLTK语料库

7.6.1 inaugural语料库

7.6.2 gutenberg语料库

7.6.3 movie_reviews语料库

7.7 NLTK文本分类

7.7.1 分句分词

7.7.2 停止词

7.7.3 词干提取

7.7.4 词形还原

7.7.5 同义词与反义词

7.7.6 语义相关性

第8章 语料清洗

8.1 认识语料清洗

8.2 清洗策略

8.2.1 一致性检查

8.2.2 格式内容检查

8.2.3 逻辑检查

8.3 缺失值清洗

8.3.1 认识缺失值

8.3.2 Pandas处理

8.3.3 Sklearn处理

8.4 异常值清洗

8.4.1 散点图方法

8.4.2 箱线图方法

8.4.3 3σ法则

8.5 重复值清洗

8.5.1 NumPy处理

8.5.2 Pandas处理

8.6 数据转换

8.6.1 数据值替换

8.6.2 数据值映射

8.6.3 数据值合并

8.6.4 数据值补充

8.7 Missingno库

8.7.1 认识Missingno库

8.7.2 示例

8.8 词云

8.8.1 认识词云

8.8.2 示例

第9章 特征工程

9.1 特征预处理

9.1.1 归一化

9.1.2 标准化

9.1.3 鲁棒化

9.1.4 正则化

9.1.5 示例

9.2 独热编码

9.2.1 认识独热编码

9.2.2 Pandas实现

9.2.3 Sklearn实现

9.2.4 DictVectorizer

9.3 CountVectorizer

9.3.1 认识CountVectorizer

9.3.2 Sklearn调用CountVectorizer

9.4 TF-IDF

9.4.1 认识TF-IDF

9.4.2 计算TF-IDF

9.4.3 Sklearn调用TF-IDF

第10章 中文分词

10.1 概述

10.1.1 简介

10.1.2 特点

10.2 常见中文分词方法

10.2.1 基于规则和词表方法

10.2.2 基于统计方法

10.2.3 基于理解方法

10.3 中文分词困惑

10.4 jieba分词库

10.4.1 认识jieba

10.4.2 三种模式

10.4.3 自定义词典

10.4.4 词性标注

10.4.5 断词位置

10.4.6 关键词抽取

10.4.7 停止词表

10.5 HanLP分词

10.5.1 认识HanLP

10.5.2 pyhanlp

10.5.3 中文分词

10.5.4 依存分析使用

10.5.5 关键词提取

10.5.6 命名实体识别

10.5.7 自定义词典

10.5.8 简体繁体转换

10.5.9 摘要提取

第11章 文本分类

11.1 历史回顾

11.2 文本分类方法

11.2.1 朴素贝叶斯

11.2.2 支持向量机

11.3 贝叶斯定理

11.4 朴素贝叶斯

11.4.1 GaussianNB方法

11.4.2 MultinomialNB方法

11.4.3 BernoulliNB方法

11.5 朴素贝叶斯进行新闻分类

11.6 支持向量机

11.6.1 线性核函数

11.6.2 多项式核函数

11.6.3 高斯核函数

11.7 支持向量机对鸢尾花分类

11.8 垃圾邮件分类

11.8.1 朴素贝叶斯定理实现

11.8.2 Sklearn朴素贝叶斯实现

第12章 文本聚类

12.1 概述

12.1.1 算法原理

12.1.2 流程

12.2 K-Means算法

12.2.1 算法原理

12.2.2 数学理论实现

12.2.3 Python实现

12.3 主成分分析

12.3.1 算法原理

12.3.2 components参数

12.3.3 对鸢尾花数据降维

12.4 K-Means评估指标

12.4.1 调整兰德系数

12.4.2 轮廓系数

12.5 K-Means英文文本聚类

12.5.1 构建DataFrame数据

12.5.2 进行分词和停止词去除

12.5.3 向量化

12.5.4 TF-IDF模型

12.5.5 计算余弦相似度

12.5.6 K-Means聚类

12.6 K-Means中文文本聚类

12.6.1 程序流程

12.6.2 程序文件

12.6.3 执行代码

第13章 评价指标

13.1 Sklearn中的评价指标

13.2 混淆矩阵

13.2.1 认识混淆矩阵

13.2.2 Pandas计算混淆矩阵

13.2.3 Sklearn计算混淆矩阵

13.3 准确率

13.3.1 认识准确率

13.3.2 Sklearn计算准确率

13.4 精确率

13.4.1 认识精确率

13.4.2 Sklearn计算精确率

13.5 召回率

13.5.1 认识召回率

13.5.2 Sklearn计算召回率

13.6 F1 Score

13.6.1 认识F1 Score

13.6.2 Sklearn计算F1 Score

13.7 综合实例

13.7.1 数学计算评价指标

13.7.2 Python计算评价指标

13.8 ROC曲线

13.8.1 认识ROC曲线

13.8.2 Sklearn计算ROC曲线

13.9 AUC面积

13.9.1 认识AUC面积

13.9.2 Sklearn计算AUC面积

13.10 分类评估报告

13.10.1 认识分类评估报告

13.10.2 Sklearn计算分类评估报告

13.11 NLP评价指标

13.11.1 中文分词精确率和召回率

13.11.2 未登录词和登录词召回率

第14章 信息提取

14.1 概述

14.2 相关概念

14.2.1 信息

14.2.2 信息熵

14.2.3 信息熵与霍夫曼编码

14.2.4 互信息

14.3 正则表达式

14.3.1 基本语法

14.3.2 re模块

14.3.3 提取电影信息

14.4 命名实体识别

14.4.1 认识命名实体

14.4.2 常见方法

14.4.3 NLTK命名实体识别

14.4.4 Stanford NLP命名实体识别

14.5 马尔可夫模型

14.5.1 认识马尔可夫

14.5.2 隐马尔可夫模型

第15章 情感分析

15.1 概述

15.1.1 认识情感分析

15.1.2 基于词典方法

15.2 情感倾向分析

15.2.1 情感词

15.2.2 程度词

15.2.3 感叹号

15.2.4 否定词

15.3 textblob

15.3.1 分句分词

15.3.2 词性标注

15.3.3 情感分析

15.3.4 单复数

15.3.5 过去式

15.3.6 拼写校正

15.3.7 词频统计

15.4 SnowNLP

15.4.1 分词

15.4.2 词性标注

15.4.3 断句

15.4.4 情绪判断

15.4.5 拼音

15.4.6 繁转简

15.4.7 关键字抽取

15.4.8 摘要抽取

15.4.9 词频和逆文档词频

15.5 Gensim

15.5.1 认识Gensim

15.5.2 认识LDA

15.5.3 Gensim实现LDA

15.6 小说人物情感分析

15.6.1 流程

15.6.2 代码

15.7 电影影评情感分析

15.7.1 流程

15.7.2 代码

附录A 教学大纲

一、课程简介

二、课程内容及要求

三、教学安排及学时分配

四、考核方式

五、建议教材及参考文献

参考文献

累计评论(4条) 6个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部