当当云阅读 > 科技 > 计算机/网络 > 多媒体/数据通信 > 大数据采集与处理

| | 手机阅读

扫描下载当当云阅读App

大数据采集与处理电子书

暂无

售价：¥

纸质售价：¥95.20购买纸书

79人正在读 | 0人评论

7.1

作者：张雪萍

出版社：电子工业出版社

出版时间：2021-09-01

字数：32.9万

所属分类：科技 > 计算机/网络 > 多媒体/数据通信

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书是一本专门论述大数据采集与处理相关技术及应用的著作，也是一线研发工程师的实战经验结晶。本书依次介绍了大数据采集、大数据预处理、大数据存储与计算、大数据安全等相关内容，并结合大数据应用各行业背景，介绍了电商、煤炭、教育、医疗、电信、交通等行业的大数据采集与处理。后，本书以某电商网站数据分析为背景，介绍一个完整的数据采集、清洗、处理的离线数据分析案例，以期给读者展示一个系统的实践操作过程。与本书所述技术相关的论著较少，所著内容新颖、系统全面、实践指导性强。<br/>【作者】<br/>张雪萍，博士，教授，*新世纪优秀人才，河南省高校科技创新人才，河南省教育厅学术技术带头人。长期从事计算机科学与技术、地理信息系统领域的的教学与科研工作，主要研究兴趣包括空间数据挖掘与信息共享、数据库版权保护、软件测试、大数据与人工智能技术及应用等。近年来完成国家"八五”、"十五”科技攻关、"十一五”科技支撑计划、*新世纪优秀人才支持计划等20余项科研项目，其中获地厅级科学技术步一等奖4项、二等奖3项、三等奖1项；在LNAI、LNCS等国内外重要学术期刊上发表论文60余篇，其中被EI收录30余篇；出版学术著作6部，其中获河南省信息技术优秀一等奖1项，二等奖1项。<br/>

目录展开

前折页

内容简介

前言

第1章　大数据基础

1.1　大数据概念及特征

1.2　大数据采集与处理基本流程

1.2.1　大数据采集

1.2.2　大数据预处理

1.2.3　大数据处理

1.3　大数据分析

1.4　大数据应用

1.4.1　大数据应用行业分类

1.4.2　大数据分析在商业上的应用

习题

参考文献

第2章　开源Hadoop

2.1　Hadoop概述

2.1.1　Hadoop简介

2.1.2　Hadoop起源及发展史

2.1.3　Hadoop发行版本

2.1.4　Hadoop特性

2.2　Hadoop生态系统

2.2.1　HDFS

2.2.2　MapReduce

2.2.3　Hive

2.2.4　ZooKeeper

2.2.5　Flume

2.2.6　Kafka

2.2.7　Spark

2.2.8　Storm

2.2.9　Flink

2.2.10　YARN

2.3　Hadoop的安装与使用

2.3.1　环境准备

2.3.2　单机模式

2.3.3　伪分布式

2.3.4　完全分布式安装

习题

参考文献

第3章　大数据采集

3.1　数据采集与大数据采集

3.1.1　数据采集

3.1.2　大数据采集及数据来源

3.1.3　传统数据采集与大数据采集的区别

3.1.4　大数据采集分类

3.2　大数据采集方法

3.2.1　数据库采集

3.2.2　系统日志采集

3.2.3　网络数据采集

3.2.4　传感器采集

3.2.5　众包采集

3.3　常用采集工具及平台

3.3.1　Flume

3.3.2　Fluentd

3.3.3　Logstash

3.3.4　Chukwa

3.3.5　Scribe

3.3.6　Splunk

3.3.7　Scrapy

3.4　网络爬虫

3.4.1　网络爬虫分类

3.4.2　网络爬虫发展现状

3.4.3　网络爬虫使用技术

3.5　实战

3.5.1　项目准备

3.5.2　架构设计

3.5.3　代码实现

3.5.4　结果展示

习题

参考文献

第4章　日志采集

4.1　日志采集概述

4.1.1　系统日志分类

4.1.2　日志分析系统架构及日志采集方式

4.1.3　日志采集应用场景与日志分析应用场景

4.1.4　日志采集系统关键技术

4.2　Scribe

4.2.1　Scribe概述

4.2.2　Scribe全局配置

4.2.3　Scribe的存储类型配置

4.3　Chukwa

4.3.1　Chukwa概述

4.3.2　Chukwa架构

4.3.3　Chukwa数据收集应用

4.4　Kafka

4.4.1　Kafka概述

4.4.2　Kafka架构

4.4.3　Kafka日志采集

4.5　Flume

4.5.1　Flume概述

4.5.2　Flume架构

4.5.3　Flume的优势

4.6　实战

4.6.1　Flume安装部署

4.6.2　环境测试

4.6.3　采集目录到HDFS

4.6.4　采集文件到HDFS

习题

参考文献

第5章　大数据预处理

5.1　为什么要进行数据预处理

5.2　大数据预处理总体架构

5.3　大数据预处理方法

5.3.1　数据清洗

5.3.2　数据集成

5.3.3　数据转换

5.3.4　数据消减

5.4　ETL工具Kettle

5.4.1　ETL介绍

5.4.2　Kettle介绍

5.4.3　Kettle安装与配置

5.5　实战

5.5.1　基于Python的数据预处理

5.5.2　基于Hadoop生态圈的Kettle应用

习题

参考文献

第6章　大数据存储

6.1　大数据存储概述

6.1.1　大数据存储面临的问题

6.1.2　大数据存储方式

6.1.3　大数据存储技术路线

6.2　HDFS

6.2.1　HDFS架构

6.2.2　HDFS存储机制

6.2.3　NameNode和DataNode工作机制

6.3　NoSQL

6.3.1　NoSQL数据库概述

6.3.2　HBase

6.3.3　MongoDB

6.3.4　Redis

6.4　ElasticSearch

6.4.1　ElasticSearch概述

6.4.2　ElasticSearch基本概念

6.4.3　ElasticSearch工作原理

6.4.4　ElasticSearch存储机制

6.4.5　ElasticSearch分布式存储

6.4.6　ElasticSearch安装与运行

6.5　实战

6.5.1　主从模式搭建

6.5.2　Sentinel模式搭建

6.5.3　Cluster模式搭建

习题

参考文献

第7章　MapReduce

7.1　概述

7.2　MapReduce计算框架

7.2.1　MapReduce模型

7.2.2　MapReduce函数

7.2.3　MapReduce资源管理

7.2.4　MapReduce生命周期管理

7.3　MapReduce工作流程及原理

7.3.1　MapReduce工作流程

7.3.2　MapReduce工作原理

7.4　深入Shuffle过程

7.4.1　Map端Shuffle

7.4.2　Reduce端Shuffle

7.5　实战

7.5.1　任务准备

7.5.2　编写Map程序

7.5.3　编写Reduce程序

7.5.4　编写main函数

7.5.5　核心代码包

7.5.6　运行代码

习题

参考文献

第8章　Hive数据仓库

8.1　数据仓库简介

8.1.1　数据仓库概念

8.1.2　数据仓库的结构

8.1.3　传统数据仓库的问题

8.1.4　数据仓库的发展

8.2　Hive

8.2.1　Hive简介

8.2.2　Hive与传统数据库的对比

8.2.3　Hive系统架构

8.2.4　Hive体系结构

8.2.5　Hive工作原理

8.2.6　Hive的数据模型

8.2.7　Hive基本操作

8.3　Impala

8.3.1　Impala简介

8.3.2　Impala架构

8.3.3　Impala执行过程

8.3.4　Impala与Hive比较

8.3.5　Impala基本操作

8.4　Spark SQL

8.4.1　Spark SQL简介

8.4.2　Spark SQL系统架构

8.4.3　HiveContext和SQLContext的运行过程

8.4.4　Shark和Spark SQL

8.4.5　Spark SQL基本操作

8.5　案例

8.5.1　大数据仓库设计案例

8.5.2　YouTuBe项目实战

习题

参考文献

第9章　流计算

9.1　流计算简介

9.1.1　流计算的概念及特点

9.1.2　流计算的适用范围与应用场景

9.2　Spark Streaming

9.2.1　Spark Streaming 概述

9.2.2　Spark Streaming基本原理

9.2.3　Spark Streaming 运行架构

9.2.4　实战

9.3　Storm

9.3.1　Storm概述

9.3.2　Storm基础架构

9.3.3　Storm运行流程

9.3.4　实战

9.4　Flink

9.4.1　Flink概述

9.4.2　Flink运行架构

9.4.3　实战

9.5　案例

9.5.1　任务目标

9.5.2　实验环境

9.5.3　数据准备

9.5.4　业务（任务）实现

9.5.5　结果展示

习题

参考文献

第10章　Pregel图计算

10.1　Pregel图计算简介

10.1.1　图结构数据

10.1.2　传统图计算解决方案的不足

10.1.3　图计算通用软件

10.1.4　Pregel简介

10.2　Pregel图计算模型

10.2.1　有向图和顶点

10.2.2　顶点之间的消息传递

10.2.3　Pregel计算过程

10.3　Pregel工作原理

10.3.1　Pregel的C++API

10.3.2　消息传递机制和Combiner

10.3.3　Aggregator机制

10.3.4　拓扑改变

10.3.5　输入和输出

10.4　Pregel体系结构

10.4.1　Pregel的执行过程

10.4.2　容错性

10.4.3　Worker

10.4.4　Master

10.4.5　Aggregator

10.5　Pregel应用实例

10.5.1　单源最短路径

10.5.2　PageRank算法实现及比较

10.6　Hama

10.6.1　Hama介绍

10.6.2　Hama体系结构

10.6.3　Hama实现PageRank算法

习题

参考文献

第11章　大数据安全技术及应用

11.1　大数据安全概述

11.2　大数据安全威胁形式

11.2.1　大数据基础设施安全威胁

11.2.2　大数据生命周期安全威胁

11.2.3　大数据隐私安全威胁

11.3　大数据安全关键路径

11.3.1　大数据性能安全保障

11.3.2　大数据安全关键技术

11.4　大数据安全管理及应用

11.4.1　大数据安全管理

11.4.2　大数据安全应用

11.5　大数据安全案例分析

11.5.1　安全性能案例——如何自行搭建大数据计算平台

11.5.2　生命周期安全分析案例——大数据内网的硬件漏洞安全分析

习题

参考文献

第12章　行业大数据采集与处理

12.1　电商大数据采集与处理

12.1.1　电商行业大数据概述

12.1.2　京东大数据采集与处理

12.1.3　某电商网站完整离线数据分析案例

12.2　煤炭大数据采集与处理

12.2.1　煤炭行业大数据概述

12.2.2　煤炭行业大数据采集与处理

12.2.3　煤炭行业大数据平台案例

12.3　教育大数据采集与处理

12.3.1　总体技术架构

12.3.2　Hadoop与Spark集成平台

12.3.3　数据采集方案设计

12.3.4　数据清洗方案设计

12.3.5　数据存储方案设计

12.3.6　学生学业预警系统需求分析

12.3.7　系统体系结构设计

12.4　医疗大数据采集与处理

12.4.1　医疗大数据概述

12.4.2　医疗行业大数据采集与处理

12.4.3　医疗大数据采集与处理案例

12.5　电信大数据采集与处理

12.5.1　电信行业大数据概述

12.5.2　电信行业大数据采集与处理

12.5.3　电信行业大数据案例

12.6　交通大数据采集与处理

12.6.1　交通大数据概述

12.6.2　交通行业大数据采集与处理

12.6.3　交通大数据案例

习题

参考文献

反侵权盗版声明

后折页

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

剪映视频剪辑完全自学一本通￥22.99

卢莉宏董磊唐增煦编著

￥22.99

可编程网络自动化￥69.90

[美]贾森·埃德尔曼(Jason Edelman),[美]斯科特·S· 洛(Scott S· Lowe),[美]马特·奥斯瓦尔特(Matt Oswalt) 著

￥69.90

零基础开发AI Agent——手把手教你用扣子做智能体￥70.00

叶涛;管锴;等

￥70.00

多智能体协同:基于大语言模型的工程实践与系统构建￥69.30

周佺喜

￥69.30

神机妙算:一本关于算法的闲书￥55.30

顾森

￥55.30

剪映+DeepSeek短视频剪辑全能一本通￥52.00

Jack 著

￥52.00

更多同类图书 >