理解数据清洗在整个数据科学过程中的作用 掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等 发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能 学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式 采用三种策略来解析和清洗HTML文件中的数据 揭PDF文档的秘密,提取需要的数据 借助一系列解决方案来清洗存放在关系型数据库里的坏数据
售 价:¥
纸质售价:¥36.70购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
前言
本书内容
本书的目标读者
本书排版约定
读者反馈
客户支持
彩色图片下载
勘误表
问题反馈
第1章 为什么需要清洗数据
1.1 新视角
1.2 数据科学过程
1.3 传达数据清洗工作的内容
1.4 数据清洗环境
1.5 入门示例
1.6 小结
第2章 基础知识——格式、类型与编码
2.1 文件格式
2.2 归档与压缩
2.3 数据类型、空值与编码
2.4 小结
第3章 数据清洗的老黄牛——电子表格和文本编辑器
3.1 电子表格中的数据清洗
3.2 文本编辑器里的数据清洗
3.3 示例项目
3.4 小结
第4章 讲通用语言——数据转换
4.1 基于工具的快速转换
4.2 使用PHP实现数据转换
4.3 使用Python实现数据转换
4.4 示例项目
4.5 小结
第5章 收集并清洗来自网络的数据
5.1 理解HTML页面结构
5.2 方法一:Python和正则表达式
5.3 方法二:Python和BeautifulSoup
5.4 方法三:Chrome Scraper
5.5 示例项目:从电子邮件和论坛中抽取数据
5.6 小结
第6章 清洗PDF文件中的数据
6.1 为什么PDF文件很难清洗
6.2 简单方案——复制
6.3 第二种技术——pdfMiner
6.4 第三种技术——Tabula
6.5 所有尝试都失败之后——第四种技术
6.6 小结
第7章 RDBMS清洗技术
7.1 准备
7.2 第一步:下载并检查Sentiment140
7.3 第二步:清洗要导入的数据
7.4 第三步:把数据导入MySQL
7.5 第四步:清洗&字符
7.6 第五步:清洗其他未知字符
7.7 第六步:清洗日期
7.8 第七步:分离用户提及、标签和URL
7.9 第八步:清洗查询表
7.10 第九步:记录操作步骤
7.11 小结
第8章 数据分享的最佳实践
8.1 准备干净的数据包
8.2 为数据编写文档
8.3 为数据设置使用条款与许可协议
8.4 数据发布
8.5 小结
第9章 Stack Overflow项目
9.1 第一步:关于Stack Overflow的问题
9.2 第二步:收集并存储Stack Overflow数据
9.3 第三步:数据清洗
9.4 第四步:数据分析
9.5 第五步:数据可视化
9.6 第六步:问题解析
9.7 从测试表转向完整数据表
9.8 小结
第10章 Twitter项目
10.1 第一步:关于推文归档数据的问题
10.2 第二步:收集数据
10.3 第三步:数据清洗
10.4 第四步:简单的数据分析
10.5 第五步:数据可视化
10.6 第六步:问题解析
10.7 把处理过程应用到全数据量(非测试用)数据表
10.8 小结
看完了
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜