万本电子书0元读

万本电子书0元读

顶部广告

数据采集与预处理技术应用电子书

聚焦大数据关键技术要,详解数据采集与数据预处理理论与技术 介绍主流数据采集工具(Flume、Kafka、日志易、Scribe、Scrapy框架等),及主流数据预处理工具(Python、Kettle、Pig、OpenRefine)的应用 随书提供全套教学课件、教学大纲、授课计划、数据集、源代码等教学资源

售       价:¥

纸质售价:¥42.30购买纸书

10人正在读 | 0人评论 6.4

作       者:安俊秀,唐聃,柳源

出  版  社:机械工业出版社

出版时间:2023-08-18

字       数:10.1万

所属分类: 教育 > 大中专教材 > 研究生/本科/专科教材

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书重介绍了数据采集和数据预处理的相关理论与技术。全书共9章,主要包括数据采集与预处理概述,大数据发环境的搭建,使用Flume采集系统日志数据,使用Kafka采集系统日志数据,其他常用的系统日志数据采集工具,使用网络爬虫采集Web数据,Python数据预处理库的使用,使用ETL工具Kettle行数据预处理,以及其他常用的数据预处理工具。本书在第2章至第9章安排了丰富的实践操作,实现了理论与实践的有机结合,帮助读者更好地学习和掌握数据采集与预处理的关键技术。 本书可以作为高等院校大数据专业的大数据课程教材,也可以作为计算机相关专业的专业课或选修课教材,同时也可以作为从事大数据相关专业的工作人员的参考用书。<br/>【推荐语】<br/>聚焦大数据关键技术要,详解数据采集与数据预处理理论与技术 介绍主流数据采集工具(Flume、Kafka、日志易、Scribe、Scrapy框架等),及主流数据预处理工具(Python、Kettle、Pig、OpenRefine)的应用 随书提供全套教学课件、教学大纲、授课计划、数据集、源代码等教学资源<br/>【作者】<br/>安俊秀,成都信息工程大学教授,访问学者,硕士生导师。软件自动生成与智能服务四川省  学术带头人(知识本体和大数据方向)。并行计算与大数据研究所负责人。长期从事数据科学与大数据技术相关的研究与教学工作,已发表研究领域相关论文40余篇,主编大数据与人工智能方面专著或教材10余部。<br/>
目录展开

面向新工科高等院校大数据专业系列教材 编委会成员名单

出版说明

前言

第1章 数据采集与预处理概述

1.1 大数据简介

1.2 数据分析简介

1.3 数据采集简介

1.4 数据预处理简介

习题

第2章 大数据开发环境的搭建

2.1 安装Python与JDK

2.2 MySQL数据库的安装与配置

2.3 Hadoop的安装与配置

2.4 在Hadoop集群上运行WordCount

习题

第3章 使用Flume采集系统日志数据

3.1 Flume概述

3.2 Flume的安装运行

3.3 Flume的核心组件

3.4 Flume拦截器与选择器

3.5 Flume负载均衡与故障转移

3.6 实践案例:使用Flume采集数据上传到HDFS

习题

第4章 使用Kafka采集系统日志数据

4.1 Kafka概述

4.2 Kafka的安装部署

4.3 Kafka的基本架构

4.4 实践案例:使用Kafka采集本地日志数据

4.5 实践案例:Kafka与Flume结合采集日志数据

习题

第5章 其他常用的系统日志数据采集工具

5.1 Scribe

5.2 Chukwa

5.3 Splunk

5.4 日志易

5.5 Logstash

5.6 Fluentd

习题

第6章 使用网络爬虫采集Web数据

6.1 网络爬虫概述

6.2 网络爬虫基础

6.3 常见的网络爬虫框架

6.4 实践案例:使用Scrapy爬取电商网站数据

习题

第7章 Python数据预处理库的使用

7.1 Python与数据分析

7.2 NumPy:数组与向量计算

7.3 Pandas:数据结构化操作

7.4 SciPy:科学化计算

7.5 Matplotlib:数据可视化

7.6 实践案例:使用Python预处理旅游路线数据

习题

第8章 使用ETL工具Kettle进行数据预处理

8.1 Kettle概述

8.2 Kettle的安装与配置

8.3 Kettle的基本使用

8.4 实践案例:使用Kettle处理某电商网站数据

习题

第9章 其他常用的数据预处理工具

9.1 Pig

9.2 OpenRefine

9.3 实践案例:使用Pig和OpenRefine预处理二手房数据

习题

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部