万本电子书0元读

万本电子书0元读

顶部广告

基于R语言的自动数据收集:网络抓取和文本挖掘实用指南电子书 租阅

售       价:¥

纸质售价:¥78.20购买纸书

255人正在读 | 4人评论 6.2

作       者:(德)蒙策尔特(Munzert,S.)

出  版  社:机械工业出版社

出版时间:2016-02-01

字       数:29.6万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:此类商品不支持退换货,不支持下载打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(4条)
  • 读书简介
  • 目录
  • 累计评论(4条)
本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。 ? 本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API口、其他数据类型以及源社区相关的技术;第10章深介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。  
目录展开

译者序

前言

第1章 概述

1.1 案例研究:濒危世界遗产地

1.2 有关网络数据质量的一些讨论

1.3 传播、提取和保存网络数据的技术

1.4 本书的结构

第一部分 网络和数据技术入门

第2章 HTML

2.1 浏览器显示及源代码

2.2 语法规则

2.3 标签和属性

2.4 解析

小结

延伸阅读

习题

第3章 XML和JSON

3.1 XML文档示例

3.2 XML语法规则

3.3 结构良好或合法的XML文档的条件

3.4 XML扩展与技术

3.5 XML和R的实践

3.6 JSON文档示例

3.7 JSON语法规则

3.8 JSON和R的实践

小结

延伸阅读

习题

第4章 XPath

4.1 XPath:一种网页查询语言

4.2 用XPath确定节点集

4.3 提取节点元素

小结

延伸阅读

习题

第5章 HTTP

5.1 HTTP基础知识

5.2 HTTP的高级特性

5.3 HTTP之外的协议

5.4 HTTP实战

小结

延伸阅读

习题

第6章 AJAX

6.1 JavaScript

6.2 XHR

6.3 利用Web开发者工具探索AJAX

小结

延伸阅读

习题

第7章 SQL和关系型数据库

7.1 概况及术语

7.2 关系型数据库

7.3 SQL:一种与数据库通信的语言

7.4 数据库实战

小结

延伸阅读

习题

第8章 正则表达式和基本字符串函数

8.1 正则表达式

8.2 字符串处理

8.3 字符编码简介

小结

延伸阅读

习题

第二部分 网络抓取和文本挖掘实用工具箱

第9章 网络抓取

9.1 数据检索的场景

9.2 数据提取策略

9.3 网络抓取:良好实践

9.4 有价值的灵感来源

小结

延伸阅读

习题

第10章 统计性文本处理

10.1 实例:对英国政府的新闻公告进行分类

10.2 处理文本数据

10.3 有监督的学习技术

10.4 无监督的学习技术

小结

延伸阅读

第11章 管理数据项目

11.1 与文件系统交互

11.2 处理多个文档或链接

11.3 组织抓取程序

11.4 定期执行R脚本

第三部分 一组案例分析

第12章 美国参议院里的合作网络

12.1 有关法案的信息

12.2 有关参议员的信息

12.3 分析网络结构

12.4 结论

第13章 从半结构化文档解析信息

13.1 从FTP服务器下载数据

13.2 解析半结构化文本数据

13.3 把气象站和气温数据视觉化

第14章 利用Twitter预测2014年奥斯卡奖

14.1 Twitter API概述

14.2 基于Twitter的2014年奥斯卡奖预测

14.3 结论

第15章 绘制姓氏地理分布图

15.1 制定一套数据采集策略

15.2 查看网站

15.3 数据检索和信息提取

15.4 映射姓氏

15.5 处理过程自动化

小结

第16章 采集关于手机的数据

16.1 页面探索

16.2 抓取程序

16.3 图形分析

16.4 数据存储

第17章 分析产品评论里的情绪

17.1 介绍

17.2 采集数据

17.3 分析数据

17.4 结论

参考文献

累计评论(4条) 5个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部