如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。 作者会展示如何将Spark和R结合起来行大数据分析。本书涵盖相关的数据科学话题、聚类计算,以及高级用户会感兴趣的问题。
售 价:¥
纸质售价:¥64.20购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
O’Reilly Media,Inc.介绍
译者序
序言
前言
格式化
致谢
本书约定
示例代码
O’Reilly在线学习平台(O’Reilly Online Learning)
如何联系我们
第1章 引言
1.1 概述
1.2 Hadoop
1.3 Spark
1.4 R
1.5 sparklyr
1.6 小结
第2章 开始
2.1 概述
2.2 预备操作
2.2.1 安装sparklyr
2.2.2 安装Spark
2.3 连接
2.4 使用Spark
2.4.1 网络接口
2.4.2 分析
2.4.3 建模
2.4.4 数据
2.4.5 扩展
2.4.6 分布式R
2.4.7 流式数据
2.4.8 日志
2.5 断开连接
2.6 使用RStudio
2.7 资源
2.8 小结
第3章 分析
3.1 概述
3.2 数据导入
3.3 数据整理
3.3.1 内置函数
3.3.2 相关性
3.4 可视化
3.4.1 使用ggplot2
3.4.2 使用dbplot
3.5 建模
3.6 沟通
3.7 小结
第4章 建模
4.1 概述
4.2 探索性数据分析
4.3 特征工程
4.4 监督式学习
4.4.1 广义线性回归
4.4.2 其他模型
4.5 非监督式学习
4.5.1 数据准备
4.5.2 主题建模
4.6 小结
第5章 管道操作
5.1 概述
5.2 创建工作
5.3 用例
5.4 操作模式
5.5 交互性
5.6 部署
5.6.1 批打分
5.6.2 实时打分
5.7 小结
第6章 集群
6.1 概述
6.2 本地化
6.2.1 管理器
6.2.2 发行版
6.3 云端
6.3.1 亚马逊
6.3.2 Databricks
6.3.3 谷歌
6.3.4 IBM
6.3.5 微软
6.3.6 Qubole
6.4 Kubernetes
6.5 工具
6.5.1 RStudio
6.5.2 Jupyter
6.5.3 Livy
6.6 小结
第7章 连接
7.1 概述
7.1.1 边缘节点
7.1.2 Spark主目录
7.2 本地模式
7.3 单机模式
7.4 YARN
7.4.1 YARN客户端
7.4.2 YARN集群
7.5 Livy
7.6 Mesos
7.7 Kubernetes
7.8 云模式
7.9 批量模式
7.10 工具
7.11 多次连接
7.12 故障排除
7.12.1 记录日志
7.12.2 Spark Submit
7.12.3 Windows
7.13 小结
第8章 数据
8.1 概述
8.2 读取数据
8.2.1 路径
8.2.2 模式
8.2.3 内存
8.2.4 列
8.3 写入数据
8.4 复制数据
8.5 文件格式
8.5.1 CSV
8.5.2 JSON
8.5.3 Parquet
8.5.4 其他
8.6 文件系统
8.7 存储系统
8.7.1 Hive
8.7.2 Cassandra
8.7.3 JDBC
8.8 小结
第9章 调试
9.1 概述
9.1.1 计算图
9.1.2 时间线
9.2 配置
9.2.1 连接设置
9.2.2 提交设置
9.2.3 运行时设置
9.2.4 sparklyr设置
9.3 分区
9.3.1 隐式分区
9.3.2 显式分区
9.4 缓存
9.4.1 检查点
9.4.2 内存
9.5 重洗
9.6 序列化
9.7 配置文件
9.8 小结
第10章 扩展
10.1 概述
10.2 H2O
10.3 图模型
10.4 XGBoost
10.5 深度学习
10.6 基因组学
10.7 空间数据
10.8 故障排除
10.9 小结
第11章 分布式R
11.1 概述
11.2 用例
11.2.1 定制解析器
11.2.2 分区建模
11.2.3 网格搜索
11.2.4 Web API
11.2.5 模拟
11.3 分区
11.4 分组
11.5 列
11.6 context参数
11.7 函数
11.8 程序包
11.9 集群需求
11.9.1 安装R
11.9.2 Apache Arrow
11.10 故障排除
11.10.1 工作节点日志
11.10.2 解决超时
11.10.3 检查分区
11.10.4 调试工作节点
11.11 小结
第12章 数据流
12.1 概述
12.2 转换
12.2.1 分析
12.2.2 建模
12.2.3 管道
12.2.4 分布式R
12.3 Kafka
12.4 Shiny
12.5 小结
第13章 社区贡献
13.1 概述
13.2 Spark API
13.3 Spark扩展
13.4 使用Scala代码
13.5 小结
附录A 补充参考代码
前言
第1章
第2章
第3章
第4章
第6章
第12章
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜