万本电子书0元读

万本电子书0元读

顶部广告

Spark大数据编程实用教程电子书

跟艾叔学习Spark,全面掌握Spark编程技能,快速成为合格的大数据工程师! Spark编程全国总决赛前三团队实战总结,提供Spark快速学习路线图。 11个综合实践案例和110个余个具体示例,透彻讲解Spark编程方法。 免费提供高清学习视频及电子书(涵盖虚拟机、Linux、Shell编程及Scala语言),一站式全方位夯实大数据发基础。

售       价:¥

纸质售价:¥54.50购买纸书

56人正在读 | 0人评论 6.2

作       者:文艾,等

出  版  社:机械工业出版社

出版时间:2020-05-14

字       数:29.6万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书是一本讲解Spark基础应用及编程的实用教程,基于 Spark 2.3 版本,内容包括 Spark 与大数据、构建 Spark 运行环境、发一个Spark 程序、深理解 Spark 程序代码、RDD 编程、Spark SQL 结构化数据处理、Spark Streaming、Structured Streaming、SparkR和GraphX。本书总结了Spark 学习的关键;提出了 Spark 快速学习路线图;提供配套的 Spark前置课程学习资源,包括虚拟机、Linux 和 Shell 免费高清视频、《零基础快速门Scala》免费电子书等,帮助零基础读者迅速夯实Spark基础。 本书配以大量的示例、源代码和注释,可以帮助读者快速、全面而又深地掌握Spark编程技能。 本书既可作为高等院校大数据、云计算和人工智能相关专业的教材,也可以作为Spark学习者和大数据研发人员的技术参考书。<br/>【推荐语】<br/>跟艾叔学习Spark,全面掌握Spark编程技能,快速成为合格的大数据工程师! Spark编程全国总决赛前三团队实战总结,提供Spark快速学习路线图。 11个综合实践案例和110个余个具体示例,透彻讲解Spark编程方法。 免费提供高清学习视频及电子书(涵盖虚拟机、Linux、Shell编程及Scala语言),一站式全方位夯实大数据发基础。<br/>【作者】<br/>文艾(艾叔):系统分析师,原解放军理工大学-奇虎360联合实验室技术负责人;具有多年大数据发和运维经验,带领团队完成了与华为、中兴通讯和奇虎360等公司的多个大数据类项目;曾受邀为中兴通讯和奇虎360等公司做技术培训,其主讲的Spark课程长期排名51CTO学院大数据类(Spark分类)年销量前列;擅长帮助初学者快速掌握Spark大数据编程技能,近年来指导零基础本科生参加Spark类全国编程竞赛,战胜了多支985高校的研究生队,获得全国总决赛二等奖两次和三等奖一次;指导本科生完成的云计算和大数据类作品,参加科技创新竞赛,共获得全国特等奖一次,一等奖两次;通过“艾叔编程”公众号,以及在网易云课堂上设的一系列免费视频课程,至今已帮助8万多名学习者门编程,并获得好评。<br/>
目录展开

作者简介

版权页

前言

目录

第1章 Spark与大数据

1.1 大数据开发基础

1.1.1 什么是大数据

1.1.2 大数据开发的通用步骤

1.1.3 大数据开发技术

1.2 初识Spark

1.2.1 Spark是什么

1.2.2 Spark的技术特点

1.3 Spark技术栈

1.4 Spark重要组件

1.4.1 Spark Core

1.4.2 Spark SQL

1.4.3 GraphX

1.4.4 流数据处理

1.4.5 SparkR

1.4.6 MLlib/ML

1.4.7 Spark交互工具

1.5 Spark和Scala

1.5.1 Scala语言简介

1.5.2 为什么用Scala开发Spark框架

1.5.3 为什么用Scala开发Spark程序

1.5.4 Scala开发Spark程序所涉及的技术

1.5.5 Scala语言基础

1.6 如何快速掌握Spark

1.6.1 Spark学习的痛点

1.6.2 Spark快速学习路线图

1.6.3 Spark学习中的关键点

1.6.4 利用本书相关资源高效学习Spark

1.6.5 本书所使用的软件和版本

1.7 练习

第2章 构建Spark运行环境

2.1 Spark程序运行时架构

2.2 构建Spark大数据运行环境

2.2.1 构建HDFS

2.2.2 构建Yarn

2.2.3 构建Spark集群

2.3 运行Spark程序(Local方式)

2.4 运行Spark程序(分布式方式)

2.4.1 Spark on Yarn

2.4.2 Spark on Standalone

2.5 Spark程序在spark-shell上运行

2.6 使用Web UI监控Spark程序运行

2.7 扩展集群节点

2.8 练习

第3章 开发第一个Spark程序

3.1 在命令行模式下开发Spark程序

3.1.1 构建Scala程序编译环境

3.1.2 使用Vim编写Spark程序

3.1.3 使用命令编译、打包Spark程序

3.1.4 运行Spark程序

3.1.5 使用java命令运行Spark程序

3.1.6 Spark程序编译、运行、部署的关键点

3.2 使用IDEA开发Spark程序

3.2.1 IDEA安装和基本使用

3.2.2 使用IDEA编辑Spark代码

3.2.3 IDEA编译、打包

3.2.4 IDEA远程提交Spark程序

3.3 练习

第4章 深入理解Spark程序代码

4.1 Spark程序代码结构

4.2 Spark程序代码的核心概念

4.2.1 RDD

4.2.2 Application

4.2.3 Job

4.2.4 DAG

4.2.5 Stage

4.2.6 Task

4.2.7 Application、Job、Stage和Task的并行粒度和并行条件

4.3 Spark程序代码执行过程

4.4 练习

第5章 RDD编程

5.1 RDD核心概念

5.1.1 Transformation的基本概念

5.1.2 Action的基本概念

5.1.3 Partition的基本概念

5.2 创建RDD

5.2.1 使用parallelize/makeRDD创建RDD

5.2.2 使用textFile创建RDD

5.2.3 其他RDD创建操作

5.3 RDD Partition

5.3.1 Partition的基本操作

5.3.2 Partition的分区过程

5.3.3 Partition和Task

5.3.4 计算Partition的个数

5.3.5 Partition的综合应用

5.4 Transformation操作

5.4.1 map操作

5.4.2 flatMap操作

5.4.3 mapPartitions操作

5.4.4 join操作

5.4.5 union操作

5.4.6 intersection操作

5.4.7 groupBy操作

5.4.8 groupByKey操作

5.4.9 reduceByKey操作

5.4.10 aggregateByKey操作

5.4.11 cogroup操作

5.5 Action操作

5.5.1 collect操作

5.5.2 reduce操作

5.5.3 fold操作

5.5.4 aggregate操作

5.5.5 foreachPartition操作

5.5.6 saveAsTextFile操作

5.5.7 saveAsObjectFile操作

5.6 RDD的cache/persist和checkpoint操作

5.6.1 cache/persist和checkpoint概述

5.6.2 cache/persist使用注意事项

5.6.3 cache/persist操作

5.6.4 checkpoint操作

5.7 练习

第6章 Spark SQL结构化数据处理

6.1 Spark SQL的核心概念

6.1.1 结构化数据和非结构化数据

6.1.2 DataFrame

6.1.3 Dataset

6.1.4 Persistent Table和Data Warehouse

6.1.5 SQL

6.1.6 SparkSession

6.2 Spark SQL数据处理概述

6.2.1 Spark SQL数据处理环境

6.2.2 Spark SQL处理结构化数据

6.2.3 Spark SQL处理不同数据源的数据

6.3 构建Spark SQL运行环境

6.3.1 Spark SQL运行环境概述

6.3.2 构建最简的Spark SQL运行环境

6.3.3 构建兼容Hive的Spark SQL运行环境

6.4 DataFrame/Dataset快速上手

6.4.1 DataFrame/Dataset使用概述

6.4.2 在spark-shell中使用DataFrame/Dataset

6.4.3 在代码中使用DataFrame/Dataset

6.4.4 DataFrame/Dataset使用上的区别

6.4.5 DataFrame行解析方法

6.4.6 DataFrame和Dataset转换

6.5 DataFrame/Dataset与数据源的转换

6.5.1 DataFrame/Dataset与数据源的转换关系和方法概述

6.5.2 DataFrame/Dataset与Seq的转换

6.5.3 DataFrame/Dataset与RDD的转换

6.5.4 DataFrame/Dataset文件与Sequence文件的转换

6.5.5 DataFrame/Dataset与CSV文件的转换

6.5.6 DataFrame/Dataset与JSON文件的转换

6.5.7 DataFrame/Dataset与ORC文件的转换

6.5.8 DataFrame/Dataset与Parquet文件的转换

6.5.9 DataFrame/Dataset与Avro文件的转换

6.5.10 DataFrame/Dataset与MySQL数据库的转换

6.5.11 DataFrame/Dataset与Hive表的转换

6.5.12 DataFrame/Dataset与Built-in data source表的转换

6.6 DataFrame/Dataset常用API

6.6.1 Action

6.6.2 Basic Dataset function

6.6.3 Typed Transformation

6.6.4 Untyped Transformation

6.7 SQL操作

6.7.1 常用DDL使用说明及示例

6.7.2 DQL使用说明及示例

6.7.3 常用DML使用说明及示例

6.8 练习

第7章 Spark Streaming

7.1 Spark Streaming基础

7.1.1 流数据定义及其特点

7.1.2 Spark Streaming的工作流程

7.1.3 Spark Streaming的核心概念

7.2 编写一个Spark Streaming程序

7.3 Spark Streaming Web UI的使用

7.3.1 Spark Streaming Web UI使用前准备

7.3.2 Spark Streaming Web UI参数说明

7.4 多路流数据合并处理示例

7.4.1 示例实现说明

7.4.2 示例分析:多数据流中Batch Job的执行

7.5 DStream Transformation操作

7.5.1 DStream Transformation实现原理

7.5.2 DStream常见的Transformation操作及说明

7.5.3 Spark Streaming的窗口(Window)操作及示例

7.6 DStream Output 操作

7.7 练习

第8章 Structured Streaming

8.1 Structured Streaming基础

8.1.1 Structured Streaming处理流程

8.1.2 Structured Streaming基本概念

8.1.3 Structured Streaming技术特性

8.2 Structured Streaming接入Text File数据源

8.3 Structured Streaming接入Rate数据源

8.4 使用Schema解析JSON格式数据源

8.5 使用DataFrame/Dataset处理流数据

8.6 Structured Streaming Window操作

8.7 Structured Streaming Watermarking操作

8.8 Structured Streaming JOIN操作

8.8.1 Streaming数据与Static数据的JOIN操作示例

8.8.2 Streaming数据与Streaming数据的JOIN操作示例

8.9 练习

第9章 SparkR

9.1 SparkR基础

9.1.1 为什么需要SparkR

9.1.2 什么是SparkR

9.1.3 SparkR和R的关系

9.1.4 SparkR的技术特征

9.1.5 SparkR程序运行时架构

9.2 构建SparkR程序开发和运行环境

9.3 SparkR代码的执行方式

9.3.1 在RStudio-server上执行SparkR代码

9.3.2 在R Shell上执行SparkR代码

9.3.3 使用spark-submit执行SparkR代码

9.3.4 在sparkR上执行SparkR代码

9.4 SparkR的基本使用

9.4.1 SparkR编程的基本流程

9.4.2 创建SparkDataFrame

9.4.3 SparkDataFrame的基本操作

9.4.4 在Spark上分布式执行R函数

9.4.5 SQL查询

9.5 SparkR机器学习算子

9.5.1 SparkR常用的机器学习算子

9.5.2 SparkR机器学习算子的使用

9.6 利用SparkR实现单词统计和图形输出

9.7 练习

第10章 GraphX

10.1 GraphX基础

10.1.1 图的定义和传统表示方法

10.1.2 图计算

10.1.3 有向多重图

10.1.4 GraphX特性

10.1.5 GraphX框架

10.2 GraphX的基本数据结构

10.2.1 VertexRDD

10.2.2 EdgeRDD

10.2.3 Graph

10.3 GraphX实现最短路径算法——SGDSP

10.4 GraphX Pregel的原理及使用

10.4.1 GraphX Pregel接口说明

10.4.2 GraphX Pregel的处理流程

10.4.3 GraphX Pregel的使用

10.5 GraphX Pregel实现最短路径算法——SGPSP

10.6 练习

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部