跟艾叔学习Spark,全面掌握Spark编程技能,快速成为合格的大数据工程师! Spark编程全国总决赛前三团队实战总结,提供Spark快速学习路线图。 11个综合实践案例和110个余个具体示例,透彻讲解Spark编程方法。 免费提供高清学习视频及电子书(涵盖虚拟机、Linux、Shell编程及Scala语言),一站式全方位夯实大数据发基础。
售 价:¥
纸质售价:¥60.00购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
作者简介
版权页
前言
目录
第1章 Spark与大数据
1.1 大数据开发基础
1.1.1 什么是大数据
1.1.2 大数据开发的通用步骤
1.1.3 大数据开发技术
1.2 初识Spark
1.2.1 Spark是什么
1.2.2 Spark的技术特点
1.3 Spark技术栈
1.4 Spark重要组件
1.4.1 Spark Core
1.4.2 Spark SQL
1.4.3 GraphX
1.4.4 流数据处理
1.4.5 SparkR
1.4.6 MLlib/ML
1.4.7 Spark交互工具
1.5 Spark和Scala
1.5.1 Scala语言简介
1.5.2 为什么用Scala开发Spark框架
1.5.3 为什么用Scala开发Spark程序
1.5.4 Scala开发Spark程序所涉及的技术
1.5.5 Scala语言基础
1.6 如何快速掌握Spark
1.6.1 Spark学习的痛点
1.6.2 Spark快速学习路线图
1.6.3 Spark学习中的关键点
1.6.4 利用本书相关资源高效学习Spark
1.6.5 本书所使用的软件和版本
1.7 练习
第2章 构建Spark运行环境
2.1 Spark程序运行时架构
2.2 构建Spark大数据运行环境
2.2.1 构建HDFS
2.2.2 构建Yarn
2.2.3 构建Spark集群
2.3 运行Spark程序(Local方式)
2.4 运行Spark程序(分布式方式)
2.4.1 Spark on Yarn
2.4.2 Spark on Standalone
2.5 Spark程序在spark-shell上运行
2.6 使用Web UI监控Spark程序运行
2.7 扩展集群节点
2.8 练习
第3章 开发第一个Spark程序
3.1 在命令行模式下开发Spark程序
3.1.1 构建Scala程序编译环境
3.1.2 使用Vim编写Spark程序
3.1.3 使用命令编译、打包Spark程序
3.1.4 运行Spark程序
3.1.5 使用java命令运行Spark程序
3.1.6 Spark程序编译、运行、部署的关键点
3.2 使用IDEA开发Spark程序
3.2.1 IDEA安装和基本使用
3.2.2 使用IDEA编辑Spark代码
3.2.3 IDEA编译、打包
3.2.4 IDEA远程提交Spark程序
3.3 练习
第4章 深入理解Spark程序代码
4.1 Spark程序代码结构
4.2 Spark程序代码的核心概念
4.2.1 RDD
4.2.2 Application
4.2.3 Job
4.2.4 DAG
4.2.5 Stage
4.2.6 Task
4.2.7 Application、Job、Stage和Task的并行粒度和并行条件
4.3 Spark程序代码执行过程
4.4 练习
第5章 RDD编程
5.1 RDD核心概念
5.1.1 Transformation的基本概念
5.1.2 Action的基本概念
5.1.3 Partition的基本概念
5.2 创建RDD
5.2.1 使用parallelize/makeRDD创建RDD
5.2.2 使用textFile创建RDD
5.2.3 其他RDD创建操作
5.3 RDD Partition
5.3.1 Partition的基本操作
5.3.2 Partition的分区过程
5.3.3 Partition和Task
5.3.4 计算Partition的个数
5.3.5 Partition的综合应用
5.4 Transformation操作
5.4.1 map操作
5.4.2 flatMap操作
5.4.3 mapPartitions操作
5.4.4 join操作
5.4.5 union操作
5.4.6 intersection操作
5.4.7 groupBy操作
5.4.8 groupByKey操作
5.4.9 reduceByKey操作
5.4.10 aggregateByKey操作
5.4.11 cogroup操作
5.5 Action操作
5.5.1 collect操作
5.5.2 reduce操作
5.5.3 fold操作
5.5.4 aggregate操作
5.5.5 foreachPartition操作
5.5.6 saveAsTextFile操作
5.5.7 saveAsObjectFile操作
5.6 RDD的cache/persist和checkpoint操作
5.6.1 cache/persist和checkpoint概述
5.6.2 cache/persist使用注意事项
5.6.3 cache/persist操作
5.6.4 checkpoint操作
5.7 练习
第6章 Spark SQL结构化数据处理
6.1 Spark SQL的核心概念
6.1.1 结构化数据和非结构化数据
6.1.2 DataFrame
6.1.3 Dataset
6.1.4 Persistent Table和Data Warehouse
6.1.5 SQL
6.1.6 SparkSession
6.2 Spark SQL数据处理概述
6.2.1 Spark SQL数据处理环境
6.2.2 Spark SQL处理结构化数据
6.2.3 Spark SQL处理不同数据源的数据
6.3 构建Spark SQL运行环境
6.3.1 Spark SQL运行环境概述
6.3.2 构建最简的Spark SQL运行环境
6.3.3 构建兼容Hive的Spark SQL运行环境
6.4 DataFrame/Dataset快速上手
6.4.1 DataFrame/Dataset使用概述
6.4.2 在spark-shell中使用DataFrame/Dataset
6.4.3 在代码中使用DataFrame/Dataset
6.4.4 DataFrame/Dataset使用上的区别
6.4.5 DataFrame行解析方法
6.4.6 DataFrame和Dataset转换
6.5 DataFrame/Dataset与数据源的转换
6.5.1 DataFrame/Dataset与数据源的转换关系和方法概述
6.5.2 DataFrame/Dataset与Seq的转换
6.5.3 DataFrame/Dataset与RDD的转换
6.5.4 DataFrame/Dataset文件与Sequence文件的转换
6.5.5 DataFrame/Dataset与CSV文件的转换
6.5.6 DataFrame/Dataset与JSON文件的转换
6.5.7 DataFrame/Dataset与ORC文件的转换
6.5.8 DataFrame/Dataset与Parquet文件的转换
6.5.9 DataFrame/Dataset与Avro文件的转换
6.5.10 DataFrame/Dataset与MySQL数据库的转换
6.5.11 DataFrame/Dataset与Hive表的转换
6.5.12 DataFrame/Dataset与Built-in data source表的转换
6.6 DataFrame/Dataset常用API
6.6.1 Action
6.6.2 Basic Dataset function
6.6.3 Typed Transformation
6.6.4 Untyped Transformation
6.7 SQL操作
6.7.1 常用DDL使用说明及示例
6.7.2 DQL使用说明及示例
6.7.3 常用DML使用说明及示例
6.8 练习
第7章 Spark Streaming
7.1 Spark Streaming基础
7.1.1 流数据定义及其特点
7.1.2 Spark Streaming的工作流程
7.1.3 Spark Streaming的核心概念
7.2 编写一个Spark Streaming程序
7.3 Spark Streaming Web UI的使用
7.3.1 Spark Streaming Web UI使用前准备
7.3.2 Spark Streaming Web UI参数说明
7.4 多路流数据合并处理示例
7.4.1 示例实现说明
7.4.2 示例分析:多数据流中Batch Job的执行
7.5 DStream Transformation操作
7.5.1 DStream Transformation实现原理
7.5.2 DStream常见的Transformation操作及说明
7.5.3 Spark Streaming的窗口(Window)操作及示例
7.6 DStream Output 操作
7.7 练习
第8章 Structured Streaming
8.1 Structured Streaming基础
8.1.1 Structured Streaming处理流程
8.1.2 Structured Streaming基本概念
8.1.3 Structured Streaming技术特性
8.2 Structured Streaming接入Text File数据源
8.3 Structured Streaming接入Rate数据源
8.4 使用Schema解析JSON格式数据源
8.5 使用DataFrame/Dataset处理流数据
8.6 Structured Streaming Window操作
8.7 Structured Streaming Watermarking操作
8.8 Structured Streaming JOIN操作
8.8.1 Streaming数据与Static数据的JOIN操作示例
8.8.2 Streaming数据与Streaming数据的JOIN操作示例
8.9 练习
第9章 SparkR
9.1 SparkR基础
9.1.1 为什么需要SparkR
9.1.2 什么是SparkR
9.1.3 SparkR和R的关系
9.1.4 SparkR的技术特征
9.1.5 SparkR程序运行时架构
9.2 构建SparkR程序开发和运行环境
9.3 SparkR代码的执行方式
9.3.1 在RStudio-server上执行SparkR代码
9.3.2 在R Shell上执行SparkR代码
9.3.3 使用spark-submit执行SparkR代码
9.3.4 在sparkR上执行SparkR代码
9.4 SparkR的基本使用
9.4.1 SparkR编程的基本流程
9.4.2 创建SparkDataFrame
9.4.3 SparkDataFrame的基本操作
9.4.4 在Spark上分布式执行R函数
9.4.5 SQL查询
9.5 SparkR机器学习算子
9.5.1 SparkR常用的机器学习算子
9.5.2 SparkR机器学习算子的使用
9.6 利用SparkR实现单词统计和图形输出
9.7 练习
第10章 GraphX
10.1 GraphX基础
10.1.1 图的定义和传统表示方法
10.1.2 图计算
10.1.3 有向多重图
10.1.4 GraphX特性
10.1.5 GraphX框架
10.2 GraphX的基本数据结构
10.2.1 VertexRDD
10.2.2 EdgeRDD
10.2.3 Graph
10.3 GraphX实现最短路径算法——SGDSP
10.4 GraphX Pregel的原理及使用
10.4.1 GraphX Pregel接口说明
10.4.2 GraphX Pregel的处理流程
10.4.3 GraphX Pregel的使用
10.5 GraphX Pregel实现最短路径算法——SGPSP
10.6 练习
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜