为你推荐
前言
第1章 从Hadoop到Spark
1.1 Hadoop——大数据时代的火种
1.1.1 大数据的由来
1.1.2 Google解决大数据计算问题的方法
1.1.3 Hadoop的由来与发展
1.2 Hadoop的局限性
1.2.1 Hadoop运行机制
1.2.2 Hadoop的性能问题
1.2.3 针对Hadoop的改进
1.3 大数据技术新星——Spark
1.3.1 Spark的出现与发展
1.3.2 Spark协议族
1.3.3 Spark的应用及优势
第2章 体验Spark
2.1 安装和使用Spark
2.1.1 安装Spark
2.1.2 了解Spark目录结构
2.1.3 使用Spark Shell
2.2 编写和运行Spark程序
2.2.1 安装Scala插件
2.2.2 编写Spark程序
2.2.3 运行Spark程序
2.3 Spark Web UI
2.3.1 访问实时Web UI
2.3.2 从实时UI查看作业信息
第3章 Spark原理
3.1 Spark工作原理
3.2 Spark架构及运行机制
3.2.1 Spark系统架构与节点角色
3.2.2 Spark作业执行过程
3.2.3 应用初始化
3.2.4 构建RDD有向无环图
3.2.5 RDD有向无环图拆分
3.2.6 Task调度
3.2.7 Task执行
第4章 RDD算子
4.1 创建算子
4.1.1 基于集合类型数据创建RDD
4.1.2 基于外部数据创建RDD
4.2 变换算子
4.2.1 对Value型RDD进行变换
4.2.2 对Key/Value型RDD进行变换
4.3 行动算子
4.3.1 数据运算类行动算子
4.3.2 存储型行动算子
4.4 缓存算子
第5章 Spark算法设计
5.1 过滤
5.2 去重计数
5.3 相关计数
5.4 相关系数
5.5 数据联结
5.6 Top-K
5.7 K-means
5.8 关联规则挖掘
5.9 kNN
5.10 朴素贝叶斯分类
第6章 善用Spark
6.1 合理分配资源
6.2 控制并行度
6.3 利用持久化
6.4 选择恰当的算子
6.5 利用共享变量
6.5.1 累加器变量
6.5.2 广播变量
6.6 利用序列化技术
6.7 关注数据本地性
6.8 内存优化策略
6.9 集成外部工具
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜