欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 教育 > 大中专教材 > 成人/中高职教材 > 文本数据挖掘——基于R语言

文本数据挖掘——基于R语言

| | 手机阅读

扫描下载当当云阅读App

文本数据挖掘——基于R语言电子书

知乎R语言方面的大V新作深浅出地介绍文本数据挖掘技术原理与方法简明扼要地介绍R语言编程基础结合大量实例循序渐地讲解基于R语言的文本数据挖掘步骤、方法、技巧

售价：¥

纸质售价：¥64.10购买纸书

87人正在读 | 0人评论

6.2

作者：黄天元

出版社：机械工业出版社

出版时间：2021-04-21

字数：8.1万

所属分类：教育 > 大中专教材 > 成人/中高职教材

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

文本是一种特殊的非结构化数据，在当今的大数据时代，其价值日趋凸显。本书利用源而强大的R软件，对文本数据挖掘的概念、技术及技巧行了系统的介绍。本书共11章，内容包括：走文本数据挖掘，R语言快速门，字符串的基本处理，用好正则表达式，导各类文本数据，对各类文本数据行预处理，文本特征提取的4种方法，基于机器学习的文本分类方法，文本情感分析，文本可视化，文本数据挖掘项目实践。本书还提供了丰富的应用案例和程序源代码引导读者高效学习。本书适合对文本数据挖掘感兴趣的学生、科研人员和数据科学从业者阅读。同时，本书还可以作为工具书，为需要经常行文本数据挖掘的读者提供快速检索。<br/>【推荐语】<br/>知乎R语言方面的大V新作深浅出地介绍文本数据挖掘技术原理与方法简明扼要地介绍R语言编程基础结合大量实例循序渐地讲解基于R语言的文本数据挖掘步骤、方法、技巧<br/>【作者】<br/>黄天元，复旦大学理学博士。热爱数据科学与源工具，致力于利用数据科学迅速积累行业经验优势和科学知识发现，研究领域包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等。在CRAN上维护了3个下载量破万的R包（akc、tidyfst、tidyft），著有《R语言高效数据处理指南》一书，并设有知乎专栏“R语言数据挖掘”，关注人数9000 。<br/>

目录展开

前折页

书名页

版权

前言

第1章走进文本数据挖掘

1.1 什么是文本数据挖掘

1.2 为什么要做文本数据挖掘

1.3 如何进行文本数据挖掘

1.3.1 文本数据挖掘的流程

1.3.2 文本数据挖掘的基本任务及方法

1.4 文本数据挖掘软件工具概览

第2章文本数据挖掘利器——R语言

2.1 开发环境配置

2.1.1 下载并安装R软件

2.1.2 包的管理

2.1.3 版本升级

2.1.4 集成开发环境

2.2 R的基本数据类型

2.2.1 数值型

2.2.2 逻辑型

2.2.3 字符型

2.2.4 因子型

2.3 R的常用数据结构

2.3.1 向量

2.3.2 矩阵

2.3.3 列表

2.3.4 数据框

2.4 R的基础编程知识

2.4.1 赋值

2.4.2 函数

2.4.3 强制类型转换

2.4.4 条件判断

2.4.5 循环操作

2.5 数据操作入门

2.5.1 文件读写

2.5.2 数据框的检视

2.5.3 单表操作

2.5.4 多表操作

2.5.5 缺失值处理

2.5.6 长宽数据转换

第3章从基础做起1——字符串的基本处理

3.1 字符串的构造

3.2 字符串的辨识、计数与定位

3.3 字符串的提取

3.4 字符串的定制化输出

3.5 字符串的替换与删除

3.6 字符串的拼接与拆分

3.7 字符串的排序

第4章从基础做起2——用好正则表达式

4.1 通配符解析

4.1.1 点运算符（“.”）

4.1.2 字符集（“[]”）

4.1.3 否定字符集（“[^]”）

4.1.4 出现0次或更多（“*”）

4.1.5 出现1次或更多（“+”）

4.1.6 出现0次或1次（“?”）

4.1.7 出现次数范围限制（“{}”）

4.1.8 特征标群（“（…）”）

4.1.9 或运算符（“|”）

4.1.10 转义字符（“\\”）

4.1.11 匹配开头部分（“^”）

4.1.12 匹配结尾部分（“$”）

4.2 反向引用

4.3 简写字符集

4.4 贪婪匹配与惰性匹配

4.5 零宽断言

4.5.1 正先行断言（“?=…”）

4.5.2 负先行断言（“?!…”）

4.5.3 正后发断言（“?<=…”）

4.5.4 负后发断言（“?<!…”）

4.5.5 提取括号中的内容

第5章步入正题——导入各类文本数据

5.1 readtext包简介

5.2 不同格式文本文件的导入

5.2.1 读取txt文件

5.2.2 读取csv/tsv文件

5.2.3 读取json文件

5.2.4 读取pdf文件

5.2.5 读取Word文件

5.2.6 读取html文件

5.2.7 读取压缩包

5.3 读入不同编码格式的文档

5.4 文件数据结构的转化

第6章更进一步——对各类文本数据进行预处理

6.1 拼写纠错

6.2 文本切分

6.2.1 段落切分

6.2.2 句子切分

6.2.3 词语切分

6.2.4 n元切分

6.2.5 字符切分

6.3 去除标点

6.4 去除停用词

6.5 扩展缩写

6.6 词干提取

6.7 词形还原与词性标注

6.8 批量文档预处理

第7章上手文本数据挖掘——文本特征提取的4种方法

7.1 基本特征提取

7.2 基于TF-IDF的特征提取

7.3 词嵌入

7.3.1 基于BOW

7.3.2 基于word2vec

7.3.3 基于GloVe

7.3.4 基于fastText

7.4 文档向量化：doc2vec

第8章文本分类——基于机器学习的方法

8.1 无监督分类

8.1.1 基于文本相似度的聚类

8.1.2 基于网络集群识别的自动化聚类

8.1.3 基于主题模型的分类

8.2 有监督分类

8.2.1 二分类

8.2.2 多分类

第9章深入理解文本内涵——文本情感分析

9.1 英文情感分析

9.1.1 RSentiment

9.1.2 sentimentr

9.1.3 SentimentAnalysis

9.1.4 meanr

9.1.5 sentometrics

9.2 中文情感分析

9.2.1 环境与数据准备

9.2.2 情感词典准备

9.2.3 中文分词

9.2.4 分值计算

9.2.5 小结

第10章文本数据的直观表达——文本可视化

10.1 条形图

10.2 克利夫兰点图

10.3 矩形树状图

10.4 词云

10.5 词汇位置分布图

10.6 网络图

10.7 双文档对比可视化

第11章举一反三——文本数据挖掘项目实践

11.1 情感分析案例：量化中文新闻报道中的情感走势

11.2 文本分类案例：基于词袋模型对英文期刊摘要来源进行分类

11.3 关键词提取案例：根据CRAN的介绍文本提取R包关键字

后折页

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

烹饪调味学

烹饪调味学￥19.00

毛羽扬

￥19.00

02

认识编程——以Python语言讲透编程的本质

认识编程——以Python语言讲透编程的本质￥59.90

郭屹

￥59.90

03

电子工程师自学宝典电路精解篇

电子工程师自学宝典电路精解篇￥59.90

蔡杏山

￥59.90

04

电子元器件的安装与拆卸

电子元器件的安装与拆卸￥69.99

梁勇;王术良;孙德升

￥69.99

05

螺旋肌肉链训练:治疗椎间盘突出和脊柱侧弯

螺旋肌肉链训练:治疗椎间盘突出和脊柱侧弯￥34.00

(捷克)理查德·施米西科,(捷克)凯瑟琳·施米西科娃,(捷克)苏珊·施米西科娃

￥34.00

06

电子工程师自学宝典;器件仪器篇

电子工程师自学宝典;器件仪器篇￥59.90

蔡杏山

￥59.90

07

财政部“十二五”职业教育规划教材新世纪高职高专精品教材·财政金融类期货交易实务(第二版)

财政部“十二五”职业教育规划教材新世纪高职高专精品教材·财政金融类期货交易实务(第二版) ￥8.67

方晓雄

￥8.67

08

心脏病家庭康复

心脏病家庭康复￥67.20

欧海宁

￥67.20

09

烹饪基本功训练教程

烹饪基本功训练教程￥19.00

薛党辰

￥19.00

10

人工智能应用实战

人工智能应用实战￥25.50

刘艳飞,常城主编

￥25.50

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当云阅读问答

意见反馈

Copyright (C) 当当网 2004-2022, All Rights Reserved

京ICP备17043473号-1 | 出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书