万本电子书0元读

万本电子书0元读

顶部广告

循序渐进Spark大数据应用开发电子书

《循序渐Spark大数据应用发》是一本深浅出的Spark大数据发实战指南,专为希望掌握Apache Spark 3.x技术栈的发者量身定制。《循序渐Spark大数据应用发》不仅涵盖了Spark的基础概念和安装步骤,更通过丰富的实战案例和上机练习,引导读者逐步深理解并掌握Spark的核心组件、集群管理、SQL处理、流式数据处理以及机器学习与图计算等高级功能。 作者凭借一线发经验,精心编排了10个章节的内容,确保读者能够循序渐地学习Spark的各项关键技术。从最简单的Spark程序编写始,逐步过渡到复杂的数据处理和分析任务,每一章都充满了实用价值和操作指导。

售       价:¥

纸质售价:¥70.30购买纸书

3人正在读 | 0人评论 6.8

作       者:柳伟卫

出  版  社:清华大学出版社有限公司

出版时间:2024-11-01

字       数:28.7万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
《循序渐Spark大数据应用发》结合作者一线发实践,循序渐地介绍了新版Apache Spark 3.x的发技术。全书共10章,第1章和第2章主要介绍Spark的基本概念、安装,并演示如何编写最简单的Spark程序。第3章深探讨了Spark的核心组件RDD。第4章讲解了Spark集群管理,帮助读者理解任务提交与执行的基本原理。第5章介绍了Spark SQL,这是处理结构化数据的基础工具。第6章展示了Spark Web UI,通过界面化的方式了解Spark集群运行状况。第7章和第8章分别介绍了Spark流式数据处理框架Spark Streaming和Structured Streaming。第9章和第10章则分别介绍了业界流行的机器学习和图计算处理框架MLlib和GraphX。书中各章节还提供了丰富的实战案例和上机练习题,以便读者在学习的同时行实际操作,迅速提升动手能力。 《循序渐Spark大数据应用发》技术先,案例丰富,适合对Spark大数据应用感兴趣的学生、大数据发人员及架构师使用,也可作为培训机构和高校大数据课程的教学用书。<br/>【推荐语】<br/>《循序渐Spark大数据应用发》是一本深浅出的Spark大数据发实战指南,专为希望掌握Apache Spark 3.x技术栈的发者量身定制。《循序渐Spark大数据应用发》不仅涵盖了Spark的基础概念和安装步骤,更通过丰富的实战案例和上机练习,引导读者逐步深理解并掌握Spark的核心组件、集群管理、SQL处理、流式数据处理以及机器学习与图计算等高级功能。 作者凭借一线发经验,精心编排了10个章节的内容,确保读者能够循序渐地学习Spark的各项关键技术。从最简单的Spark程序编写始,逐步过渡到复杂的数据处理和分析任务,每一章都充满了实用价值和操作指导。 特别值得一提的是,《循序渐Spark大数据应用发》提供了24个精心设计的实战案例和26个上机练习题,这些内容旨在帮助读者将理论知识转化为实践技能,快速提升解决实际问题的能力。无论是对于学生、大数据发人员还是架构师来说,这都是一本不可多得的宝贵资源。<br/>【作者】<br/>柳伟卫,网名老卫、waylau,在IT公司担任过项目经理、架构师、高级技术顾问等职位,拥有十余年发经验,具有丰富的软件发管理及系统架构经验。主导过多个省、国家级大型分布式系统的设计与研发,参与过面向全球的供应系统服务化改造。在实际工作中,积累了大量的分布式系统、微 服务架构以及性能调优经验。业余时间创建了 waylau.com 网站,用于分享个人技术心得。喜欢源,长期跃于各大源社区,编著了《跟老卫学HarmonyOS发》《Netty 实战(精髓)》等近30余本源技术教程(见 https://waylau.com/books/),广受网友好评,是 CSDN、 源中国、阿里云发者、华为发者等技术社区专家,慕课网、华为发者联盟社区认证讲师。已出版包括《HarmonyOS应用发门》《分布式系统常用技术及案例分析》《Java核心编程》《轻量级Java EE企业应用发实战》《Node.js Express MongoDB Vue.js全栈发实战》《Netty原理解析与发实战》等在内的几十本专著。 <br/>
目录展开

作者简介

内容简介

前言

写作背景

内容介绍

本书所采用的技术及相关版本

配套资源

读者对象

致谢

第1章 Spark概述

1.1 Spark简介

1.2 Spark组成

1.3 Spark数据类型

1.4 Spark的使用场景

1.5 Spark与Hadoop的联系与区别

1.6 本章小结

第2章 Spark安装及初体验

2.1 下载并安装Spark

2.2 通过Shell使用Spark

2.3 实战:通过Spark进行词频统计

2.4 日志信息详解

2.5 动手练习

2.6 本章小结

第3章 RDD基础编程

3.1 了解RDD的基本概念

3.2 创建RDD

3.3 操作RDD

3.4 实战:transformation操作

3.5 实战:action操作

3.6 惰性求值

3.7 函数式编程

3.8 持久化

3.9 实战:持久化

3.10 共享变量

3.11 混洗

3.12 键-值对

3.13 动手练习

3.14 本章小结

第4章 Spark集群管理

4.1 Spark集群概述

4.2 提交任务到Spark集群

4.3 启动Spark集群

4.4 Spark集群的高可用方案

4.5 使用YARN集群

4.6 YARN集群的常用配置

4.7 YARN集群资源分配和配置

4.8 YARN阶段级调度

4.9 动手练习

4.10 本章小结

第5章 Spark SQL

5.1 Spark SQL的基本概念及工作原理

5.2 Dataset与DataFrame

5.3 实战:DataFrame的基本操作

5.4 实战:Dataset的基本操作

5.5 实战:使用DataFrame创建临时视图

5.6 实战:RDD转换为Dataset

5.7 Apache Parquet列存储格式

5.8 实战:Apache Parquet数据源的读取和写入

5.9 实战:使用JDBC操作数据库

5.10 实战:读取二进制文件

5.11 实战:导出数据到CSV文件

5.12 Apache ORC文件

5.13 实战:Apache ORC文件操作示例

5.14 Apache Hive数据仓库

5.15 实战:Apache Hive操作示例

5.16 Apache Avro格式

5.17 实战:Apache Avro操作示例

5.18 动手练习

5.19 本章小结

第6章 Spark Web UI

6.1 Web UI概述

6.2 启动Web UI

6.3 Jobs页面

6.4 Stages页面

6.5 Storage页面

6.6 Environment页面

6.7 Executors页面

6.8 SQL页面

6.9 动手练习

6.10 本章小结

第7章 Spark Streaming

7.1 Spark Streaming概述

7.2 DStream的transformation操作

7.3 DStream的输入

7.4 实战:DStream无状态的transformation操作

7.5 实战:DStream有状态的transformation操作

7.6 DStream的输出操作

7.7 实战:DStream的输出操作

7.8 Spark Streaming使用DataFrame和SQL操作

7.9 Spark Streaming检查点

7.10 Spark Streaming性能优化

7.11 Spark Streaming容错机制

7.12 实战:Spark Streaming与Kafka集成

7.13 动手练习

7.14 本章小结

第8章 Structured Streaming

8.1 Structured Streaming概述

8.2 创建流式DataFrame/Dataset

8.3 Structured Streaming操作

8.4 Structured Streaming统计来自Socket数据流的词频

8.5 实战:Structured Streaming窗口操作

8.6 Structured Streaming输出接收器

8.7 消除重复数据

8.8 状态存储

8.9 启动流式查询

8.10 异步进度跟踪

8.11 连续处理

8.12 实战:Structured Streaming与Kafka集成

8.13 动手练习

8.14 本章小结

第9章 MLlib

9.1 MLlib概述

9.2 机器学习基础知识

9.3 MLlib的RDD API和DataFrame API

9.4 MLlib流水线

9.5 实战:MLlib的Estimator例子

9.6 实战:MLlib的Transformer例子

9.7 实战:MLlib的Pipeline例子

9.8 动手练习

9.9 本章小结

第10章 GraphX

10.1 GraphX概述

10.2 属性图

10.3 实战:GraphX从边构建图

10.4 GraphX分区优化

10.5 动手练习

10.6 本章小结

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部