Spark发者出品! 《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 本书介绍了源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。
售 价:¥
纸质售价:¥40.70购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
O'Reilly Media, Inc. 介绍
业界评论
推荐序
译者序
前言
读者对象
本书结构
相关书籍
使用代码示例
Safari® Books Online
联系我们
致谢
第1章 Spark 数据分析导论
1.1 Spark是什么
1.2 一个大一统的软件栈
1.3 Spark的用户和用途
1.4 Spark简史
1.5 Spark的版本和发布
1.6 Spark的存储层次
第2章 Spark 下载与入门
2.1 下载Spark
2.2 Spark中Python和Scala的shell
2.3 Spark核心概念简介
2.4 独立应用
2.5 总结
第3章 RDD 编程
3.1 RDD基础
3.2 创建RDD
3.3 RDD操作
3.4 向Spark传递函数
3.5 常见的转化操作和行动操作
3.6 持久化(缓存)
3.7 总结
第4章 键值对操作
4.1 动机
4.2 创建Pair RDD
4.3 Pair RDD的转化操作
4.4 Pair RDD的行动操作
4.5 数据分区(进阶)
4.6 总结
第5章 数据读取与保存
5.1 动机
5.2 文件格式
5.3 文件系统
5.4 Spark SQL中的结构化数据
5.5 数据库
5.6 总结
第6章 Spark 编程进阶
6.1 简介
6.2 累加器
6.3 广播变量
6.4 基于分区进行操作
6.5 与外部程序间的管道
6.6 数值RDD的操作
6.7 总结
第7章 在集群上运行 Spark
7.1 简介
7.2 Spark运行时架构
7.3 使用spark-submit部署应用
7.4 打包代码与依赖
7.5 Spark应用内与应用间调度
7.6 集群管理器
7.7 选择合适的集群管理器
7.8 总结
第8章 Spark 调优与调试
8.1 使用SparkConf配置Spark
8.2 Spark执行的组成部分:作业、任务和步骤
8.3 查找信息
8.4 关键性能考量
8.5 总结
第9章 Spark SQL
9.1 连接Spark SQL
9.2 在应用中使用Spark SQL
9.3 读取和存储数据
9.4 JDBC/ODBC服务器
9.5 用户自定义函数
9.6 Spark SQL性能
9.7 总结
第10章 Spark Streaming
10.1 一个简单的例子
10.2 架构与抽象
10.3 转化操作
10.4 输出操作
10.5 输入源
10.6 24/7不间断运行
10.7 Streaming用户界面
10.8 性能考量
10.9 总结
第11章 基于 MLlib 的机器学习
11.1 概述
11.2 系统要求
11.3 机器学习基础
11.4 数据类型
11.5 算法
11.6 一些提示与性能考量
11.7 流水线API
11.8 总结
作者简介
封面介绍
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜