《循序渐Spark大数据应用发》是一本深浅出的Spark大数据发实战指南,专为希望掌握Apache Spark 3.x技术栈的发者量身定制。《循序渐Spark大数据应用发》不仅涵盖了Spark的基础概念和安装步骤,更通过丰富的实战案例和上机练习,引导读者逐步深理解并掌握Spark的核心组件、集群管理、SQL处理、流式数据处理以及机器学习与图计算等高级功能。 作者凭借一线发经验,精心编排了10个章节的内容,确保读者能够循序渐地学习Spark的各项关键技术。从最简单的Spark程序编写始,逐步过渡到复杂的数据处理和分析任务,每一章都充满了实用价值和操作指导。
售 价:¥
纸质售价:¥70.30购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
作者简介
内容简介
前言
写作背景
内容介绍
本书所采用的技术及相关版本
配套资源
读者对象
致谢
第1章 Spark概述
1.1 Spark简介
1.2 Spark组成
1.3 Spark数据类型
1.4 Spark的使用场景
1.5 Spark与Hadoop的联系与区别
1.6 本章小结
第2章 Spark安装及初体验
2.1 下载并安装Spark
2.2 通过Shell使用Spark
2.3 实战:通过Spark进行词频统计
2.4 日志信息详解
2.5 动手练习
2.6 本章小结
第3章 RDD基础编程
3.1 了解RDD的基本概念
3.2 创建RDD
3.3 操作RDD
3.4 实战:transformation操作
3.5 实战:action操作
3.6 惰性求值
3.7 函数式编程
3.8 持久化
3.9 实战:持久化
3.10 共享变量
3.11 混洗
3.12 键-值对
3.13 动手练习
3.14 本章小结
第4章 Spark集群管理
4.1 Spark集群概述
4.2 提交任务到Spark集群
4.3 启动Spark集群
4.4 Spark集群的高可用方案
4.5 使用YARN集群
4.6 YARN集群的常用配置
4.7 YARN集群资源分配和配置
4.8 YARN阶段级调度
4.9 动手练习
4.10 本章小结
第5章 Spark SQL
5.1 Spark SQL的基本概念及工作原理
5.2 Dataset与DataFrame
5.3 实战:DataFrame的基本操作
5.4 实战:Dataset的基本操作
5.5 实战:使用DataFrame创建临时视图
5.6 实战:RDD转换为Dataset
5.7 Apache Parquet列存储格式
5.8 实战:Apache Parquet数据源的读取和写入
5.9 实战:使用JDBC操作数据库
5.10 实战:读取二进制文件
5.11 实战:导出数据到CSV文件
5.12 Apache ORC文件
5.13 实战:Apache ORC文件操作示例
5.14 Apache Hive数据仓库
5.15 实战:Apache Hive操作示例
5.16 Apache Avro格式
5.17 实战:Apache Avro操作示例
5.18 动手练习
5.19 本章小结
第6章 Spark Web UI
6.1 Web UI概述
6.2 启动Web UI
6.3 Jobs页面
6.4 Stages页面
6.5 Storage页面
6.6 Environment页面
6.7 Executors页面
6.8 SQL页面
6.9 动手练习
6.10 本章小结
第7章 Spark Streaming
7.1 Spark Streaming概述
7.2 DStream的transformation操作
7.3 DStream的输入
7.4 实战:DStream无状态的transformation操作
7.5 实战:DStream有状态的transformation操作
7.6 DStream的输出操作
7.7 实战:DStream的输出操作
7.8 Spark Streaming使用DataFrame和SQL操作
7.9 Spark Streaming检查点
7.10 Spark Streaming性能优化
7.11 Spark Streaming容错机制
7.12 实战:Spark Streaming与Kafka集成
7.13 动手练习
7.14 本章小结
第8章 Structured Streaming
8.1 Structured Streaming概述
8.2 创建流式DataFrame/Dataset
8.3 Structured Streaming操作
8.4 Structured Streaming统计来自Socket数据流的词频
8.5 实战:Structured Streaming窗口操作
8.6 Structured Streaming输出接收器
8.7 消除重复数据
8.8 状态存储
8.9 启动流式查询
8.10 异步进度跟踪
8.11 连续处理
8.12 实战:Structured Streaming与Kafka集成
8.13 动手练习
8.14 本章小结
第9章 MLlib
9.1 MLlib概述
9.2 机器学习基础知识
9.3 MLlib的RDD API和DataFrame API
9.4 MLlib流水线
9.5 实战:MLlib的Estimator例子
9.6 实战:MLlib的Transformer例子
9.7 实战:MLlib的Pipeline例子
9.8 动手练习
9.9 本章小结
第10章 GraphX
10.1 GraphX概述
10.2 属性图
10.3 实战:GraphX从边构建图
10.4 GraphX分区优化
10.5 动手练习
10.6 本章小结
参考文献
买过这本书的人还买过
读了这本书的人还在读