读者对象: 1)人工智能相关专业的研究人员;2)信息科学和计算机科学爱好者;3)统计学或相关IT专业学生;4)不具备专业数学知识的人群。 (1)三位作者资历深厚,分别是阿里巴巴的数据架构师和NLP专家、百炼智能的NLP专家(前明略数据的技术合伙人和科学家)、七牛云AI实验室NLP&OCR方向负责人; (2)以实战为导向,绕各种复杂数学公式与证明,确保读者零基础门,详细讲解自然语言处理 的各种核心技术、方法论和经典算法;
售 价:¥
纸质售价:¥48.30购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
序一
序二
前言
为什么要写这本书
读者将学到什么
读者对象
如何阅读本书
勘误和支持
致谢
第1章 NLP基础
1.1 什么是NLP
1.1.1 NLP的概念
1.1.2 NLP的研究任务
1.2 NLP的发展历程
1.3 NLP相关知识的构成
1.3.1 基本术语
1.3.2 知识结构
1.4 语料库
1.5 探讨NLP的几个层面
1.6 NLP与人工智能
1.7 本章小结
第2章 NLP前置技术解析
2.1 搭建Python开发环境
2.1.1 Python的科学计算发行版——Anaconda
2.1.2 Anaconda的下载与安装
2.2 正则表达式在NLP的基本应用
2.2.1 匹配字符串
2.2.2 使用转义符
2.2.3 抽取文本中的数字
2.3 Numpy使用详解
2.3.1 创建数组
2.3.2 获取Numpy中数组的维度
2.3.3 获取本地数据
2.3.4 正确读取数据
2.3.5 Numpy数组索引
2.3.6 切片
2.3.7 数组比较
2.3.8 替代值
2.3.9 数据类型转换
2.3.10 Numpy的统计计算方法
2.4 本章小结
第3章 中文分词技术
3.1 中文分词简介
3.2 规则分词
3.2.1 正向最大匹配法
3.2.2 逆向最大匹配法
3.2.3 双向最大匹配法
3.3 统计分词
3.3.1 语言模型
3.3.2 HMM模型
3.3.3 其他统计分词算法
3.4 混合分词
3.5 中文分词工具——Jieba
3.5.1 Jieba的三种分词模式
3.5.2 实战之高频词提取
3.6 本章小结
第4章 词性标注与命名实体识别
4.1 词性标注
4.1.1 词性标注简介
4.1.2 词性标注规范
4.1.3 Jieba分词中的词性标注
4.2 命名实体识别
4.2.1 命名实体识别简介
4.2.2 基于条件随机场的命名实体识别
4.2.3 实战一:日期识别
4.2.4 实战二:地名识别
4.3 总结
第5章 关键词提取算法
5.1 关键词提取技术概述
5.2 关键词提取算法TF/IDF算法
5.3 TextRank算法
5.4 LSA/LSI/LDA算法
5.4.1 LSA/LSI算法
5.4.2 LDA算法
5.5 实战提取文本关键词
5.6 本章小结
第6章 句法分析
6.1 句法分析概述
6.2 句法分析的数据集与评测方法
6.2.1 句法分析的数据集
6.2.2 句法分析的评测方法
6.3 句法分析的常用方法
6.3.1 基于PCFG的句法分析
6.3.2 基于最大间隔马尔可夫网络的句法分析
6.3.3 基于CRF的句法分析
6.3.4 基于移进–归约的句法分析模型
6.4 使用Stanford Parser的PCFG算法进行句法分析
6.4.1 Stanford Parser
6.4.2 基于PCFG的中文句法分析实战
6.5 本章小结
第7章 文本向量化
7.1 文本向量化概述
7.2 向量化算法word2vec
7.2.1 神经网络语言模型
7.2.2 C&W模型
7.2.3 CBOW模型和Skip-gram模型
7.3 向量化算法doc2vec/str2vec
7.4 案例:将网页文本向量化
7.4.1 词向量的训练
7.4.2 段落向量的训练
7.4.3 利用word2vec和doc2vec计算网页相似度
7.5 本章小结
第8章 情感分析技术
8.1 情感分析的应用
8.2 情感分析的基本方法
8.2.1 词法分析
8.2.2 机器学习方法
8.2.3 混合分析
8.3 实战电影评论情感分析
8.3.1 卷积神经网络
8.3.2 循环神经网络
8.3.3 长短时记忆网络
8.3.4 载入数据
8.3.5 辅助函数
8.3.6 模型设置
8.3.7 调参配置
8.3.8 训练过程
8.4 本章小结
第9章 NLP中用到的机器学习算法
9.1 简介
9.1.1 机器学习训练的要素
9.1.2 机器学习的组成部分
9.2 几种常用的机器学习方法
9.2.1 文本分类
9.2.2 特征提取
9.2.3 标注
9.2.4 搜索与排序
9.2.5 推荐系统
9.2.6 序列学习
9.3 分类器方法
9.3.1 朴素贝叶斯Naïve Bayesian
9.3.2 逻辑回归
9.3.3 支持向量机
9.4 无监督学习的文本聚类
9.5 文本分类实战:中文垃圾邮件分类
9.5.1 实现代码
9.5.2 评价指标
9.6 文本聚类实战:用K-means对豆瓣读书数据聚类
9.7 本章小结
第10章 基于深度学习的NLP算法
10.1 深度学习概述
10.1.1 神经元模型
10.1.2 激活函数
10.1.3 感知机与多层网络
10.2 神经网络模型
10.3 多输出层模型
10.4 反向传播算法
10.5 最优化算法
10.5.1 梯度下降
10.5.2 随机梯度下降
10.5.3 批量梯度下降
10.6 丢弃法
10.7 激活函数
10.7.1 tanh函数
10.7.2 ReLU函数
10.8 实现BP算法
10.9 词嵌入算法
10.9.1 词向量
10.9.2 word2vec简介
10.9.3 词向量模型
10.9.4 CBOW和Skip-gram模型
10.10 训练词向量实践
实战用Gensim训练百科语料库
10.11 朴素Vanilla-RNN
10.12 LSTM网络
10.12.1 LSTM基本结构
10.12.2 其他LSTM变种形式
10.13 Attention机制
10.13.1 文本翻译
10.13.2 图说模型
10.13.3 语音识别
10.13.4 文本摘要
10.14 Seq2Seq模型
10.15 图说模型
10.16 深度学习平台
10.16.1 Tensorflow
10.16.2 Mxnet
10.16.3 PyTorch
10.16.4 Caffe
10.16.5 Theano
10.17 实战Seq2Seq问答机器人
10.18 本章小结
第11章 Solr搜索引擎
11.1 全文检索的原理
11.2 Solr简介与部署
11.3 Solr后台管理描述
管理界面概述
11.4 配置schema
如何配置schema
11.5 Solr管理索引库
11.5.1 创建索引
11.5.2 查询索引
11.5.3 删除文档
11.6 本章小结
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜