万本电子书0元读

万本电子书0元读

顶部广告

Spark Cookbook 中文版电子书

导语_评_推荐词

售       价:¥

纸质售价:¥35.50购买纸书

156人正在读 | 0人评论 6.2

作       者:[印度]Rishi Yadav(亚达夫)

出  版  社:人民邮电出版社

出版时间:2016-10-01

字       数:12.9万

所属分类: 科技 > 计算机/网络 > 软件系统

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
Spark是一个基于内存计算的源集群计算系统,它非常小巧玲珑,让数据分析更加快速,已逐渐成为新一代大数据处理平台中的佼佼者。 本书内容分为12章,从认识Apache Spark始讲解,陆续介绍了Spark的使用、外部数据源、Spark SQL、Spark Streaming、机器学习、监督学习中的回归和分类、无监督学习、推荐系统、图像处理、优化及调优等内容。 本书适合大数据领域的技术人员,可以帮助他们更好地洞悉大数据,本书也适合想要学习Spark行大数据处理的人员,它将是一本绝佳的参考教程。<br/>【推荐语】<br/>导语_评_推荐词<br/>【作者】<br/>Rishi Yadav拥有17年设计和发企业级应用的经验。他是一位源软件专家,引领了美国公司的大数据趋势。Rish被评为2014年40位40岁以下硅谷杰出工程师之一。他于1998年获得杰出的印度理工学院(Indian Institute of Technology,IIT)德里分校的学士学位。大约在10年前,Rishi创办了InfoObjects,这是一家以深度探索数据为宗旨的企业。该公司已连续4年被列发展快公司5000强。InfoObjects也被授予了2014及2015年度湾区杰出工作地首名的桂冠。Rishi还是一位源社区贡献者和活跃的博主。<br/>
目录展开

内容提要

译者简介

作者简介

审阅者简介

前言

第1章 开始使用Apache Spark

1.1 简介

1.2 使用二进制文件安装Spark

1.2.1 准备工作

1.2.2 具体步骤

1.3 通过Maven构建Spark源码

1.3.1 准备工作

1.3.2 具体步骤

1.4 在Amazon EC2上部署Spark

1.4.1 准备工作

1.4.2 具体步骤

1.4.3 参考资料

1.5 在集群上以独立模式部署Spark

1.5.1 准备工作

1.5.2 具体步骤

1.5.3 工作原理

1.5.4 参考资料

1.6 在集群上使用Mesos部署Spark

具体步骤

1.7 在集群上使用YARN部署

1.7.1 准备工作

1.7.2 具体步骤

1.7.3 工作原理

1.8 使用Tachyon作为堆外存储层

1.8.1 具体步骤

1.8.2 参考资料

第2章 使用Spark开发应用

2.1 简介

2.2 探索Spark shell

具体步骤

2.3 在Eclipse中使用Maven开发Spark应用

2.3.1 准备工作

2.3.2 具体步骤

2.4 在Eclipse中使用SBT开发Spark应用

具体步骤

2.5 在Intellij IDEA中使用Maven开发Spark应用

具体步骤

2.6 在Intellij IDEA中使用SBT开发Spark应用

具体步骤

第3章 外部数据源

3.1 简介

3.2 从本地文件系统加载数据

具体步骤

3.3 从HDFS加载数据

3.3.1 具体步骤

3.3.2 更多内容

3.4 从HDFS加载自定义输入格式的数据

具体步骤

3.5 从Amazon S3加载数据

具体步骤

3.6 从Apache Cassandra加载数据

3.6.1 具体步骤

3.6.2 更多内容

3.7 从关系型数据库加载数据

3.7.1 准备工作

3.7.2 具体步骤

3.7.3 工作原理

第4章 Spark SQL

4.1 简介

4.2 理解Catalyst优化器

工作原理

4.3 创建HiveContext

4.3.1 准备工作

4.3.2 具体步骤

4.4 使用case类生成数据格式

具体步骤

4.5 编程指定数据格式

4.5.1 具体步骤

4.5.2 工作原理

4.6 使用Parquet格式载入及存储数据

4.6.1 具体步骤

4.6.2 工作原理

4.6.3 更多内容

4.7 使用JSON格式载入及存储数据

4.7.1 具体步骤

4.7.2 工作原理

4.7.3 更多内容

4.8 从关系型数据库载入及存储数据

4.8.1 准备工作

4.8.2 具体步骤

4.9 从任意数据源载入及存储数据

4.9.1 具体步骤

4.9.2 更多内容

第5章 Spark Streaming

5.1 简介

5.2 使用Streaming统计字数

5.3 Twitter流数据处理

具体步骤

5.4 Kafka流数据处理

5.4.1 准备工作

5.4.2 具体步骤

5.4.3 更多内容

第6章 机器学习——MLlib

6.1 简介

6.2 创建向量

6.2.1 具体步骤

6.2.2 工作原理

6.3 创建向量标签

具体步骤

6.4 创建矩阵

具体步骤

6.5 计算概述统计量

具体步骤

6.6 计算相关性

6.6.1 准备工作

6.6.2 具体步骤

6.7 进行假设检验

具体步骤

6.8 使用ML创建机器学习流水线

6.8.1 准备工作

6.8.2 具体步骤

第7章 监督学习之回归——MLlib

7.1 简介

7.2 使用线性回归

7.2.1 准备工作

7.2.2 具体步骤

7.3 理解代价函数

7.4 使用Lasso线性回归

具体步骤

7.5 使用岭回归

具体步骤

第8章 监督学习之分类——MLlib

8.1 简介

8.2 逻辑回归分类

8.2.1 准备工作

8.2.2 具体步骤

8.3 支持向量机二元分类

具体步骤

8.4 决策树分类

8.4.1 准备工作

8.4.2 具体步骤

8.4.3 工作原理

8.5 随机森林分类

8.5.1 准备工作

8.5.2 具体步骤

8.5.3 工作原理

8.6 梯度提升树(GBTs)分类

8.6.1 准备工作

8.6.2 具体步骤

8.7 朴素贝叶斯分类

8.7.1 准备工作

8.7.2 具体步骤

第9章 无监督学习——MLlib

9.1 简介

9.2 使用k-means聚类

9.2.1 准备工作

9.2.2 具体步骤

9.3 主成分分析的降维

9.3.1 准备工作

9.3.2 具体步骤

9.4 奇异值分解降维

9.4.1 准备工作

9.4.2 具体步骤

第10章 推荐系统

10.1 简介

10.2 显性反馈的协同过滤

10.2.1 准备工作

10.2.2 具体步骤

10.3 隐性反馈的协同过滤

10.3.1 准备工作

10.3.2 具体步骤

10.3.3 工作原理

10.3.4 更多内容

第11章 图像处理——GraphX

11.1 简介

11.2 基本图像运算

11.2.1 准备工作

11.2.2 具体步骤

11.3 使用PageRank

11.3.1 准备工作

11.3.2 具体步骤

11.4 查找连通分量

11.4.1 准备工作

11.4.2 具体步骤

11.5 相邻聚合实现

11.5.1 准备工作

11.5.2 具体步骤

第12章 优化及调优

12.1 简介

12.2 内存优化

12.3 使用压缩提升性能

12.4 使用序列化提升性能

具体步骤

12.5 优化垃圾回收

具体步骤

12.6 优化并行度的级别

具体步骤

12.7 理解未来的优化——Tungsten项目

12.7.1 利用应用程序语义自己管理内存

12.7.2 使用算法和数据结构

12.7.3 代码生成

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部