万本电子书0元读

万本电子书0元读

顶部广告

Spark大数据处理与分析电子书

介绍大数据发展趋势和基于Spark的生态环境,全面系统地提供Spark发的基础知识,提供基于Docker容器发环境和编程实例,引导Spark技术学习者快速门,系统的掌握Spark的编程技术。

售       价:¥

纸质售价:¥96.70购买纸书

31人正在读 | 0人评论 6.2

作       者:雷擎

出  版  社:清华大学出版社

出版时间:2020-11-01

字       数:31.6万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书是Spark技术门的基础类书籍,通过本书的学习实验可以牢固掌握Spark编程技术的基本概念、原理和编程方法,能够行应用程序的实际发。<br/>【推荐语】<br/>介绍大数据发展趋势和基于Spark的生态环境,全面系统地提供Spark发的基础知识,提供基于Docker容器发环境和编程实例,引导Spark技术学习者快速门,系统的掌握Spark的编程技术。<br/>【作者】<br/>雷擎,对外经济贸易大学教师,中国科学院计算技术研究所博士<br/>
目录展开

封面页

书名页

版权页

内容简介

前言

目录

第1章 Spark生态环境

1.1 平台设计

1.2 Spark简介

1.2.1 技术特性

1.2.2 数据格式

1.2.3 编程语言

1.3 虚拟环境

1.3.1 发展历史

1.3.2 技术特征

1.3.3 技术架构

1.3.4 管理命令

1.4 HBase技术

1.4.1 系统架构

1.4.2 存储机制

1.4.3 常用命令

1.5 环境部署

1.6 小结

第2章 理解Spark

2.1 数据处理

2.1.1 MapReduce

2.1.2 工作机制

2.2 认识RDD

2.3 操作RDD

2.3.1 转换

2.3.2 动作

2.4 Scala编程

2.4.1 面向对象编程

2.4.2 函数式编程

2.4.3 集合类

2.5 案例分析

2.5.1 启动交换界面

2.5.2 SparkContext和SparkSession

2.5.3 加载数据

2.5.4 应用操作

2.5.5 缓存处理

2.6 小结

第3章 键值对与分区

3.1 键值对RDD

3.1.1 创建

3.1.2 转换

3.1.3 动作

3.2 分区和洗牌

3.2.1 分区

3.2.2 洗牌

3.3 共享变量

3.3.1 广播变量

3.3.2 累加器

3.4 Scala高级语法

3.4.1 高阶函数

3.4.2 泛型类

3.4.3 隐式转换

3.5 案例分析

3.5.1 检查事件数据

3.5.2 reduceByKey和groupByKey

3.5.3 三种连接转换

3.5.4 执行几个动作

3.5.5 跨节点分区

3.6 小结

第4章 关系型数据处理

4.1 Spark SQL概述

4.1.1 CataIyst优化器

4.1.2 DataFrame与DataSet

4.1.3 创建结构化数据

4.2 结构化数据操作

4.2.1 选取列

4.2.2 选择语句(seIect、seIectExpr)

4.2.3 操作列(withCoIumn、withCoIumnRenamed、drop)

4.2.4 条件语句(where、fiIter)

4.2.5 去除重复(distinct、dropDupIicates)

4.2.6 排序语句(sort、orderBy)

4.2.7 操作多表(union、join)

4.2.8 聚合操作

4.2.9 用户定义函数

4.3 案例分析

4.3.1 创建DataFrame

4.3.2 操作DataFrame

4.3.3 按年份组合

4.4 小结

第5章 数据流的操作

5.1 处理范例

5.1.1 至少一次

5.1.2 最多一次

5.1.3 恰好一次

5.2 理解时间

5.3 离散化流

5.3.1 一个例子

5.3.2 StreamingContext

5.3.3 输入流

5.4 离散流的操作

5.4.1 基本操作

5.4.2 transform

5.4.3 连接操作

5.4.4 SQL操作

5.4.5 输出操作

5.4.6 窗口操作

5.4.7 有状态转换

5.5 结构化流

5.5.1 一个例子

5.5.2 工作机制

5.5.3 窗口操作

5.6 案例分析

5.6.1 探索数据

5.6.2 创建数据流

5.6.3 转换操作

5.6.4 窗口操作

5.7 小结

第6章 分布式的图处理

6.1 理解图的概念

6.2 图并行系统

6.3 一个例子

6.4 创建和探索图

6.4.1 属性图

6.4.2 构建器

6.4.3 创建图

6.4.4 探索图

6.5 图运算符

6.5.1 属性运算符

6.5.2 结构运算符

6.5.3 联结运算符

6.5.4 点和边操作

6.5.5 收集相邻信息

6.6 Pregel

6.6.1 一个例子

6.6.2 PregeI运算符

6.6.3 标签传播算法

6.6.4 PageRank算法

6.7 案例分析

6.7.1 定义点

6.7.2 定义边

6.7.3 创建图

6.7.4 PageRank

6.7.5 PregeI

6.8 小结

第7章 机器学习

7.1 MLlib

7.2 数据类型

7.2.1 局部向量

7.2.2 标签向量

7.2.3 局部矩阵

7.2.4 分布矩阵

7.3 统计基础

7.3.1 相关分析

7.3.2 假设检验

7.3.3 摘要统计

7.4 算法概述

7.4.1 有监督学习

7.4.2 无监督学习

7.4.3 多种算法介绍

7.4.4 协同过滤

7.5 交叉验证

7.6 机器学习管道

7.6.1 概念介绍

7.6.2 Spark管道

7.6.3 模型选择

7.7 实例分析

7.7.1 预测用户偏好

7.7.2 分析飞行延误

7.8 小结

第8章 特征工程

8.1 特征提取

8.1.1 TF-IDF

8.1.2 Word2Vec

8.1.3 CountVectorizer

8.2 特征转换

8.2.1 Tokenizer

8.2.2 StopWordsRemover

8.2.3 n-gram

8.2.4 Binarizer

8.2.5 PCA

8.2.6 PoIynomiaIExpansion

8.2.7 Discrete Cosine Transform

8.2.8 StringIndexer

8.2.9 IndexToString

8.2.10 OneHotEncoder

8.2.11 VectorIndexer

8.2.12 Interaction

8.2.13 NormaIizer

8.2.14 StandardScaIer

8.2.15 MinMaxScaIer

8.2.16 MaxAbsScaIer

8.2.17 Bucketizer

8.2.18 EIementwiseProduct

8.2.19 SQLTransformer

8.2.20 VectorAssembIer

8.2.21 QuantiIeDiscretizer

8.2.22 Imputer

8.3 特征选择

8.3.1 VectorSIicer

8.3.2 RFormuIa

8.3.3 ChiSqSeIector

8.4 局部敏感哈希

8.4.1 局部敏感哈希操作

8.4.2 局部敏感哈希算法

8.5 小结

第9章 算法汇总

9.1 决策树和集成树

9.1.1 决策树

9.1.2 集成树

9.2 分类和回归

9.2.1 线性方法

9.2.2 分类

9.2.3 回归

9.3 聚集

9.3.1 K均值

9.3.2 潜在狄利克雷分配

9.3.3 二分K均值

9.3.4 高斯混合模型

9.4 小结

第10章 Spark应用程序

10.1 SparkContext与SparkSession

10.2 构建应用

10.3 部署应用

10.3.1 集群架构

10.3.2 集群管理

10.4 小结

第11章 监视和优化

11.1 工作原理

11.1.1 依赖关系

11.1.2 划分阶段

11.1.3 实例分析

11.2 洗牌机制

11.3 内存管理

11.4 优化策略

11.4.1 数据序列化

11.4.2 内存调优

11.4.3 其他方面

11.5 最佳实践

11.5.1 系统配置

11.5.2 程序调优

11.6 案例分析

11.6.1 执行模型

11.6.2 监控界面

11.6.3 调试优化

11.7 小结

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部