万本电子书0元读

万本电子书0元读

顶部广告

Spark大数据处理: 原理、算法与实例电子书

Spark被称为大数据处理王者技术Hadoop的真正挑战者。本书以丰富示例介绍Spark程序和数据挖掘算法设计,更好地帮助Spark开发者提高学习效率。

售       价:¥

纸质售价:¥38.70购买纸书

231人正在读 | 0人评论 6.2

作       者:刘军,林文辉,方澄

出  版  社:清华大学出版社

出版时间:2016-09-01

字       数:11.7万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书以时下为流行的Hadoop所存在的缺陷为出发,深浅出地介绍了下一代大数据处理核心技术Spark的优势和必要性,并以简洁的指引步骤展示了如何在10分钟内建立一个Spark大数据处理环境。在此基础上,本书以图文并茂和丰富的示例代码讲解的形式系统性地揭示了Spark的运行原理、算子使用、算法设计和优化手段,为读者提供了一个快速由浅深掌握Spark基础能力和高级技巧的参考书籍。 本书共六章,涉及的主题主要包括大数据处理技术从Hadoop发展到Spark的必然性、快速体验Spark的指引、Spark架构和原理、RDD算子使用方法和示例、Spark算法设计实例、Spark程序优化方法。 本书适合需要使用Spark行大数据处理的程序员、架构师和产品经理作为技术参考和培训资料,亦可作为高校研究生和本科生教材。<br/>【推荐语】<br/>Spark被称为大数据处理王者技术Hadoop的真正挑战者。本书以丰富示例介绍Spark程序和数据挖掘算法设计,更好地帮助Spark发者提高学习效率。<br/>【作者】<br/>刘军,男,1976年生人,博士,副教授,硕士生导师,北京邮电大学数据科学中心主任。 2003年至2007年任职于IBM中国研究院,担任高级研究员及部门经理,建立IBM中国研究院电信融合网络管理研究方向,主持研发Websphere及Tivoli电信产品线中多项关键技术,期间发表多篇国际会议及刊物论文,并申请获得多项美国专利。 2007年至2012年创办欢城(北京)科技有限公司,创中国无端网络游戏产业,并担任中国软件协会网页游戏专业委员会委员。公司产品多次荣获国内互联网业界奖项,2008年获中国互联网协会“*运营价值Webgame”奖项,  2012年至今在北京邮电大学信息与通信工程学院任教,研究方向为电信及互联网大数据分析、高速数据流挖掘算法,并牵头组建北京邮电大学数据科学中心。设研究生课程《海量数据处理中的云计算》,发表大数据分析相关SCI/EI检索论文十余篇,并独著《Hadoop大数据处理》一书,该书被哈工大、中南大学等多所高校的相关课程作为教材使用。<br/>
目录展开

前言

第1章 从Hadoop到Spark

1.1 Hadoop——大数据时代的火种

1.1.1 大数据的由来

1.1.2 Google解决大数据计算问题的方法

1.1.3 Hadoop的由来与发展

1.2 Hadoop的局限性

1.2.1 Hadoop运行机制

1.2.2 Hadoop的性能问题

1.2.3 针对Hadoop的改进

1.3 大数据技术新星——Spark

1.3.1 Spark的出现与发展

1.3.2 Spark协议族

1.3.3 Spark的应用及优势

第2章 体验Spark

2.1 安装和使用Spark

2.1.1 安装Spark

2.1.2 了解Spark目录结构

2.1.3 使用Spark Shell

2.2 编写和运行Spark程序

2.2.1 安装Scala插件

2.2.2 编写Spark程序

2.2.3 运行Spark程序

2.3 Spark Web UI

2.3.1 访问实时Web UI

2.3.2 从实时UI查看作业信息

第3章 Spark原理

3.1 Spark工作原理

3.2 Spark架构及运行机制

3.2.1 Spark系统架构与节点角色

3.2.2 Spark作业执行过程

3.2.3 应用初始化

3.2.4 构建RDD有向无环图

3.2.5 RDD有向无环图拆分

3.2.6 Task调度

3.2.7 Task执行

第4章 RDD算子

4.1 创建算子

4.1.1 基于集合类型数据创建RDD

4.1.2 基于外部数据创建RDD

4.2 变换算子

4.2.1 对Value型RDD进行变换

4.2.2 对Key/Value型RDD进行变换

4.3 行动算子

4.3.1 数据运算类行动算子

4.3.2 存储型行动算子

4.4 缓存算子

第5章 Spark算法设计

5.1 过滤

5.2 去重计数

5.3 相关计数

5.4 相关系数

5.5 数据联结

5.6 Top-K

5.7 K-means

5.8 关联规则挖掘

5.9 kNN

5.10 朴素贝叶斯分类

第6章 善用Spark

6.1 合理分配资源

6.2 控制并行度

6.3 利用持久化

6.4 选择恰当的算子

6.5 利用共享变量

6.5.1 累加器变量

6.5.2 广播变量

6.6 利用序列化技术

6.7 关注数据本地性

6.8 内存优化策略

6.9 集成外部工具

参考文献

累计评论(0条) 1个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部