为你推荐
封面页
书名页
版权页
内容简介
前言
目录
第1章 Spark生态环境
1.1 平台设计
1.2 Spark简介
1.2.1 技术特性
1.2.2 数据格式
1.2.3 编程语言
1.3 虚拟环境
1.3.1 发展历史
1.3.2 技术特征
1.3.3 技术架构
1.3.4 管理命令
1.4 HBase技术
1.4.1 系统架构
1.4.2 存储机制
1.4.3 常用命令
1.5 环境部署
1.6 小结
第2章 理解Spark
2.1 数据处理
2.1.1 MapReduce
2.1.2 工作机制
2.2 认识RDD
2.3 操作RDD
2.3.1 转换
2.3.2 动作
2.4 Scala编程
2.4.1 面向对象编程
2.4.2 函数式编程
2.4.3 集合类
2.5 案例分析
2.5.1 启动交换界面
2.5.2 SparkContext和SparkSession
2.5.3 加载数据
2.5.4 应用操作
2.5.5 缓存处理
2.6 小结
第3章 键值对与分区
3.1 键值对RDD
3.1.1 创建
3.1.2 转换
3.1.3 动作
3.2 分区和洗牌
3.2.1 分区
3.2.2 洗牌
3.3 共享变量
3.3.1 广播变量
3.3.2 累加器
3.4 Scala高级语法
3.4.1 高阶函数
3.4.2 泛型类
3.4.3 隐式转换
3.5 案例分析
3.5.1 检查事件数据
3.5.2 reduceByKey和groupByKey
3.5.3 三种连接转换
3.5.4 执行几个动作
3.5.5 跨节点分区
3.6 小结
第4章 关系型数据处理
4.1 Spark SQL概述
4.1.1 CataIyst优化器
4.1.2 DataFrame与DataSet
4.1.3 创建结构化数据
4.2 结构化数据操作
4.2.1 选取列
4.2.2 选择语句(seIect、seIectExpr)
4.2.3 操作列(withCoIumn、withCoIumnRenamed、drop)
4.2.4 条件语句(where、fiIter)
4.2.5 去除重复(distinct、dropDupIicates)
4.2.6 排序语句(sort、orderBy)
4.2.7 操作多表(union、join)
4.2.8 聚合操作
4.2.9 用户定义函数
4.3 案例分析
4.3.1 创建DataFrame
4.3.2 操作DataFrame
4.3.3 按年份组合
4.4 小结
第5章 数据流的操作
5.1 处理范例
5.1.1 至少一次
5.1.2 最多一次
5.1.3 恰好一次
5.2 理解时间
5.3 离散化流
5.3.1 一个例子
5.3.2 StreamingContext
5.3.3 输入流
5.4 离散流的操作
5.4.1 基本操作
5.4.2 transform
5.4.3 连接操作
5.4.4 SQL操作
5.4.5 输出操作
5.4.6 窗口操作
5.4.7 有状态转换
5.5 结构化流
5.5.1 一个例子
5.5.2 工作机制
5.5.3 窗口操作
5.6 案例分析
5.6.1 探索数据
5.6.2 创建数据流
5.6.3 转换操作
5.6.4 窗口操作
5.7 小结
第6章 分布式的图处理
6.1 理解图的概念
6.2 图并行系统
6.3 一个例子
6.4 创建和探索图
6.4.1 属性图
6.4.2 构建器
6.4.3 创建图
6.4.4 探索图
6.5 图运算符
6.5.1 属性运算符
6.5.2 结构运算符
6.5.3 联结运算符
6.5.4 点和边操作
6.5.5 收集相邻信息
6.6 Pregel
6.6.1 一个例子
6.6.2 PregeI运算符
6.6.3 标签传播算法
6.6.4 PageRank算法
6.7 案例分析
6.7.1 定义点
6.7.2 定义边
6.7.3 创建图
6.7.4 PageRank
6.7.5 PregeI
6.8 小结
第7章 机器学习
7.1 MLlib
7.2 数据类型
7.2.1 局部向量
7.2.2 标签向量
7.2.3 局部矩阵
7.2.4 分布矩阵
7.3 统计基础
7.3.1 相关分析
7.3.2 假设检验
7.3.3 摘要统计
7.4 算法概述
7.4.1 有监督学习
7.4.2 无监督学习
7.4.3 多种算法介绍
7.4.4 协同过滤
7.5 交叉验证
7.6 机器学习管道
7.6.1 概念介绍
7.6.2 Spark管道
7.6.3 模型选择
7.7 实例分析
7.7.1 预测用户偏好
7.7.2 分析飞行延误
7.8 小结
第8章 特征工程
8.1 特征提取
8.1.1 TF-IDF
8.1.2 Word2Vec
8.1.3 CountVectorizer
8.2 特征转换
8.2.1 Tokenizer
8.2.2 StopWordsRemover
8.2.3 n-gram
8.2.4 Binarizer
8.2.5 PCA
8.2.6 PoIynomiaIExpansion
8.2.7 Discrete Cosine Transform
8.2.8 StringIndexer
8.2.9 IndexToString
8.2.10 OneHotEncoder
8.2.11 VectorIndexer
8.2.12 Interaction
8.2.13 NormaIizer
8.2.14 StandardScaIer
8.2.15 MinMaxScaIer
8.2.16 MaxAbsScaIer
8.2.17 Bucketizer
8.2.18 EIementwiseProduct
8.2.19 SQLTransformer
8.2.20 VectorAssembIer
8.2.21 QuantiIeDiscretizer
8.2.22 Imputer
8.3 特征选择
8.3.1 VectorSIicer
8.3.2 RFormuIa
8.3.3 ChiSqSeIector
8.4 局部敏感哈希
8.4.1 局部敏感哈希操作
8.4.2 局部敏感哈希算法
8.5 小结
第9章 算法汇总
9.1 决策树和集成树
9.1.1 决策树
9.1.2 集成树
9.2 分类和回归
9.2.1 线性方法
9.2.2 分类
9.2.3 回归
9.3 聚集
9.3.1 K均值
9.3.2 潜在狄利克雷分配
9.3.3 二分K均值
9.3.4 高斯混合模型
9.4 小结
第10章 Spark应用程序
10.1 SparkContext与SparkSession
10.2 构建应用
10.3 部署应用
10.3.1 集群架构
10.3.2 集群管理
10.4 小结
第11章 监视和优化
11.1 工作原理
11.1.1 依赖关系
11.1.2 划分阶段
11.1.3 实例分析
11.2 洗牌机制
11.3 内存管理
11.4 优化策略
11.4.1 数据序列化
11.4.2 内存调优
11.4.3 其他方面
11.5 最佳实践
11.5.1 系统配置
11.5.2 程序调优
11.6 案例分析
11.6.1 执行模型
11.6.2 监控界面
11.6.3 调试优化
11.7 小结
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜