万本电子书0元读

万本电子书0元读

顶部广告

Spark快速大数据分析电子书

Spark发者出品! 《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 本书介绍了源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。

售       价:¥

纸质售价:¥46.60购买纸书

731人正在读 | 1人评论 6.2

温馨提示:此类商品不支持退换货,不支持下载打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(1条)
  • 读书简介
  • 目录
  • 累计评论(1条)
本书由 Spark 发者及核心成员共同造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。 本书由 Spark 发者及核心成员共同造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。
【推荐语】
Spark发者出品! 《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。 本书介绍了源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。 本书由Spark发者编写,可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业,还能了解从简单的批处理作业到流处理以及机器学习等应用。
【作者】
Holden Karau是Databricks的软件发工程师,活跃于源社区。她还著有《Spark快速数据处理》。 Andy Konwinski是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。 Patrick Wendell是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。 Matei Zaharia是Databricks的CTO,同时也是Apache Spark项目发起人以及Apache基金会副主席。
目录展开

O'Reilly Media, Inc. 介绍

业界评论

推荐序

译者序

前言

读者对象

本书结构

相关书籍

使用代码示例

Safari® Books Online

联系我们

致谢

第1章 Spark 数据分析导论

1.1 Spark是什么

1.2 一个大一统的软件栈

1.3 Spark的用户和用途

1.4 Spark简史

1.5 Spark的版本和发布

1.6 Spark的存储层次

第2章 Spark 下载与入门

2.1 下载Spark

2.2 Spark中Python和Scala的shell

2.3 Spark核心概念简介

2.4 独立应用

2.5 总结

第3章 RDD 编程

3.1 RDD基础

3.2 创建RDD

3.3 RDD操作

3.4 向Spark传递函数

3.5 常见的转化操作和行动操作

3.6 持久化(缓存)

3.7 总结

第4章 键值对操作

4.1 动机

4.2 创建Pair RDD

4.3 Pair RDD的转化操作

4.4 Pair RDD的行动操作

4.5 数据分区(进阶)

4.6 总结

第5章 数据读取与保存

5.1 动机

5.2 文件格式

5.3 文件系统

5.4 Spark SQL中的结构化数据

5.5 数据库

5.6 总结

第6章 Spark 编程进阶

6.1 简介

6.2 累加器

6.3 广播变量

6.4 基于分区进行操作

6.5 与外部程序间的管道

6.6 数值RDD的操作

6.7 总结

第7章 在集群上运行 Spark

7.1 简介

7.2 Spark运行时架构

7.3 使用spark-submit部署应用

7.4 打包代码与依赖

7.5 Spark应用内与应用间调度

7.6 集群管理器

7.7 选择合适的集群管理器

7.8 总结

第8章 Spark 调优与调试

8.1 使用SparkConf配置Spark

8.2 Spark执行的组成部分:作业、任务和步骤

8.3 查找信息

8.4 关键性能考量

8.5 总结

第9章 Spark SQL

9.1 连接Spark SQL

9.2 在应用中使用Spark SQL

9.3 读取和存储数据

9.4 JDBC/ODBC服务器

9.5 用户自定义函数

9.6 Spark SQL性能

9.7 总结

第10章 Spark Streaming

10.1 一个简单的例子

10.2 架构与抽象

10.3 转化操作

10.4 输出操作

10.5 输入源

10.6 24/7不间断运行

10.7 Streaming用户界面

10.8 性能考量

10.9 总结

第11章 基于 MLlib 的机器学习

11.1 概述

11.2 系统要求

11.3 机器学习基础

11.4 数据类型

11.5 算法

11.6 一些提示与性能考量

11.7 流水线API

11.8 总结

作者简介

封面介绍

累计评论(1条) 3个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部