聚焦大数据关键技术要,详解数据采集与数据预处理理论与技术 介绍主流数据采集工具(Flume、Kafka、日志易、Scribe、Scrapy框架等),及主流数据预处理工具(Python、Kettle、Pig、OpenRefine)的应用 随书提供全套教学课件、教学大纲、授课计划、数据集、源代码等教学资源
售 价:¥
纸质售价:¥42.30购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
面向新工科高等院校大数据专业系列教材 编委会成员名单
出版说明
前言
第1章 数据采集与预处理概述
1.1 大数据简介
1.2 数据分析简介
1.3 数据采集简介
1.4 数据预处理简介
习题
第2章 大数据开发环境的搭建
2.1 安装Python与JDK
2.2 MySQL数据库的安装与配置
2.3 Hadoop的安装与配置
2.4 在Hadoop集群上运行WordCount
习题
第3章 使用Flume采集系统日志数据
3.1 Flume概述
3.2 Flume的安装运行
3.3 Flume的核心组件
3.4 Flume拦截器与选择器
3.5 Flume负载均衡与故障转移
3.6 实践案例:使用Flume采集数据上传到HDFS
习题
第4章 使用Kafka采集系统日志数据
4.1 Kafka概述
4.2 Kafka的安装部署
4.3 Kafka的基本架构
4.4 实践案例:使用Kafka采集本地日志数据
4.5 实践案例:Kafka与Flume结合采集日志数据
习题
第5章 其他常用的系统日志数据采集工具
5.1 Scribe
5.2 Chukwa
5.3 Splunk
5.4 日志易
5.5 Logstash
5.6 Fluentd
习题
第6章 使用网络爬虫采集Web数据
6.1 网络爬虫概述
6.2 网络爬虫基础
6.3 常见的网络爬虫框架
6.4 实践案例:使用Scrapy爬取电商网站数据
习题
第7章 Python数据预处理库的使用
7.1 Python与数据分析
7.2 NumPy:数组与向量计算
7.3 Pandas:数据结构化操作
7.4 SciPy:科学化计算
7.5 Matplotlib:数据可视化
7.6 实践案例:使用Python预处理旅游路线数据
习题
第8章 使用ETL工具Kettle进行数据预处理
8.1 Kettle概述
8.2 Kettle的安装与配置
8.3 Kettle的基本使用
8.4 实践案例:使用Kettle处理某电商网站数据
习题
第9章 其他常用的数据预处理工具
9.1 Pig
9.2 OpenRefine
9.3 实践案例:使用Pig和OpenRefine预处理二手房数据
习题
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜