(1)本书以基本概念与实例相结合的方法,由浅深、循序渐地对大数据思维、技术和应用做了全面系统的介绍。 (2)本书在每一个环节都配有与理论学习内容相结合的案例介绍,还有使用Java和Python语言编写的应用实例,使读者能够在大数据平台上通过实践亲身体验大数据处理和分析的过程,从而加快和加深对大数据理论和技术的理解。 (3)为了使读者方便检验和复习巩固学习到的知识,本书每章后面都配有丰富的作业供学生完成。
售 价:¥
纸质售价:¥35.20购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
扉页
版权页
作者简介
内容提要
前言
第一部分 大数据基础篇
第1章 大数据思维
1.1 什么是大数据
1.2 从IT时代到大数据时代
1.3 大数据的产生与作用
1.3.1 大数据的产生
1.3.2 大数据的作用
1.4 大数据时代的新理念
1.4.1 对研究范式的新认识:从第三范式到第四范式
1.4.2 对数据重要性的新认识:从数据资源到数据资产
1.4.3 对方法论的新认识:从基于知识到基于数据
1.4.4 对数据分析的新认识:从统计学到数据科学
1.4.5 对计算智能的新认识:从复杂算法到简单算法
1.4.6 对管理目标的新认识:从业务数据化到数据业务化
1.4.7 对决策方式的新认识:从目标驱动型到数据驱动型
1.4.8 对产业竞合关系的新认识:从以战略为中心到以数据为中心
1.4.9 对数据复杂性的新认识:从不接受到接受数据的复杂性
1.4.10 对数据处理模式的新认识:从小众参与到大众协同
1.5 总结
习题
第2章 大数据技术概述
2.1 大数据处理的基本流程
2.1.1 数据抽取与集成
2.1.2 数据分析
2.1.3 数据解释
2.2 大数据关键技术
2.2.1 大数据采集技术
2.2.2 大数据预处理技术
2.2.3 大数据存储及管理技术
2.2.4 大数据处理
2.2.5 大数据分析及挖掘技术
2.2.6 大数据展示技术
2.3 总结
习题
第3章 大数据采集
3.1 大数据采集概述
3.1.1 大数据分类
3.1.2 大数据采集方法分类
3.2 系统日志采集方法
3.2.1 Flume的基本概念
3.2.2 Flume使用方法
3.2.3 Flume应用案例
3.3 网络数据采集方法
3.3.1 网络爬虫原理
3.3.2 网络爬虫工作流程
3.3.3 网络爬虫抓取策略
3.3.4 Scrapy网络爬虫系统
3.3.5 小结
3.4 总结
习题
第4章 大数据预处理
4.1 大数据预处理概述
4.1.1 大数据预处理整体架构
4.1.2 数据质量问题分类
4.1.3 大数据预处理方法
4.2 数据清洗
4.2.1 遗漏数据处理
4.2.2 噪声数据处理
4.2.3 不一致数据处理
4.3 数据集成
4.4 数据转换
4.5 数据消减
4.5.1 数据立方合计
4.5.2 维数消减
4.5.3 数据压缩
4.5.4 数据块消减
4.6 离散化和概念层次树
4.6.1 数值概念层次树
4.6.2 类别概念层次树
4.7 ETL工具Kettle
4.7.1 ETL工具简介
4.7.2 安装Kettle
4.7.3 Kettle的数据流处理
4.8 总结
习题
第5章 大数据处理系统
5.1 大数据技术概述
5.1.1 分布式计算
5.1.2 服务器集群
5.1.3 大数据的技术基础
5.2 Google大数据处理系统
5.2.1 GFS
5.2.2 MapReduce
5.2.3 BigTable
5.3 Hadoop大数据处理系统
5.3.1 Hadoop系统简介
5.3.2 Hadoop生态圈
5.3.3 Hadoop版本演进
5.3.4 Hadoop发行版本
5.4 总结
习题
第二部分 大数据存储篇
第6章 大数据文件系统HDFS
6.1 HDFS简介
6.2 HDFS基本原理
6.2.1 文件系统的问题
6.2.2 HDFS的基本思想
6.2.3 HDFS的设计理念
6.2.4 HDFS的局限
6.3 HDFS系统实现
6.3.1 HDFS整体架构
6.3.2 HDFS数据复制
6.4 HDFS数据访问机制
6.4.1 读取流程
6.4.2 写入流程
6.5 HDFS操作
6.5.1 HDFS常用命令
6.5.2 HDFS的Web界面
6.5.3 HDFS的Java API
6.6 总结
习题
第7章 NoSQL数据库HBase
7.1 NoSQL概述
7.1.1 NoSQL的起因
7.1.2 NoSQL的特点
7.1.3 NoSQL数据库面临的挑战
7.1.4 NoSQL的类型
7.2 HBase概述
7.3 HBase数据模型
7.3.1 数据模型概述
7.3.2 数据模型的基本概念
7.3.3 概念视图
7.3.4 物理视图
7.4 HBase命令行
7.4.1 一般操作
7.4.2 DDL操作
7.4.3 DML操作
7.4.4 HBase表实例
7.5 HBase的运行机制
7.5.1 HBase的物理存储
7.5.2 HBase的逻辑架构
7.6 HBase的编程
7.6.1 HBase的常用Java API
7.6.2 HBase编程实例
7.7 总结
习题
第三部分 大数据处理篇
第8章 大数据批处理Hadoop MapReduce
8.1 MapReduce概述
8.1.1 批处理模式
8.1.2 MapReduce简释
8.1.3 MapReduce基本思想
8.1.4 Map函数和Reduce函数
8.2 Hadoop MapReduce架构
8.3 Hadoop MapReduce的工作流程
8.4 实例分析:单词计数
8.4.1 设计思路
8.4.2 处理过程
8.5 Hadoop MapReduce 的工作机制
8.5.1 Hadoop MapReduce作业执行流程
8.5.2 Hadoop MapReduce的Shuffle阶段
8.5.3 Hadoop MapReduce的主要特点
8.6 Hadoop MapReduce编程实战
8.6.1 任务准备
8.6.2 编写Map程序
8.6.3 编写Reduce程序
8.6.4 编写main函数
8.6.5 核心代码包
8.6.6 运行代码
8.7 总结
习题
第9章 大数据快速处理Spark
9.1 Spark简介
9.1.1 Spark与Hadoop
9.1.2 Spark的适用场景
9.2 RDD概念
9.2.1 RDD的基本概念
9.2.2 RDD基本操作
9.2.3 RDD血缘关系
9.2.4 RDD依赖类型
9.2.5 阶段划分
9.2.6 RDD缓存
9.3 Spark运行架构和机制
9.3.1 Spark总体架构
9.3.2 Spark运行流程
9.4 Spark生态系统
9.5 Spark编程实践
9.5.1 启动Spark Shell
9.5.2 Spark Shell使用
9.5.3 编写Java应用程序
9.6 总结
习题
第10章 大数据实时流计算Spark Streaming
10.1 Spark Streaming简介
10.2 Spark Streaming的系统架构
10.2.1 传统流处理系统架构
10.2.2 Spark Streaming系统架构
10.2.3 动态负载均衡
10.2.4 容错性
10.2.5 实时性、扩展性与吞吐量
10.3 编程模型
10.3.1 DStream的操作流程
10.3.2 Spark Streaming使用
10.3.3 DStream的输入源
10.4 DStream的操作
10.4.1 普通的转换操作
10.4.2 窗口转换操作
10.4.3 输出操作
10.4.4 持久化
10.5 编程实战
10.5.1 流数据模拟器
10.5.2 实例1:读取文件演示
10.5.3 实例2:网络数据演示
10.5.4 实例3:Stateful演示
10.5.5 实例4:窗口演示
10.6 总结
习题
第四部分 大数据挖掘篇
第11章 大数据挖掘
11.1 数据挖掘概述
11.1.1 什么是数据挖掘
11.1.2 数据挖掘的价值类型
11.1.3 数据挖掘算法的类型
11.2 Spark MLlib简介
11.2.1 Spark MLlib的构成
11.2.2 Spark MLlib的优势
11.3 分类和预测
11.3.1 分类的基本概念
11.3.2 预测的基本概念
11.3.3 决策树算法
11.3.4 朴素贝叶斯算法
11.3.5 回归分析
11.3.6 小结
11.4 聚类分析
11.4.1 基本概念
11.4.2 聚类分析方法的类别
11.4.3 k-means聚类算法
11.4.4 DBSCAN聚类算法
11.4.5 小结
11.5 关联分析
11.5.1 概述
11.5.2 基本概念
11.5.3 关联分析步骤
11.5.4 Apriori关联分析算法
11.5.5 FP-Tree关联分析算法
11.5.6 小结
11.6 总结
习题
第五部分 大数据应用篇
第12章 大数据应用
12.1 大数据功能应用
12.1.1 基于大数据的精准营销
12.1.2 基于大数据的个性化推荐
12.1.3 大数据预测
12.1.4 大数据的其他应用领域
12.1.5 小结
12.2 大数据行业应用
12.2.1 大数据行业应用概述
12.2.2 金融行业大数据
12.2.3 互联网行业的大数据应用
12.2.4 物流行业大数据应用
12.2.5 小结
12.3 总结
习题
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜