万本电子书0元读

万本电子书0元读

顶部广告

大规模数据分析和建模:基于Spark与R电子书

如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。 作者会展示如何将Spark和R结合起来行大数据分析。本书涵盖相关的数据科学话题、聚类计算,以及高级用户会感兴趣的问题。

售       价:¥

纸质售价:¥64.20购买纸书

16人正在读 | 0人评论 6.7

作       者:(美)哈维尔·卢拉辛(Javier Luraschi),(美)凯文·郭(Kevin Kuo),(美)埃德加·鲁伊斯(Edgar Ruiz)

出  版  社:机械工业出版社

出版时间:2020-07-01

字       数:20.0万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
这本书的目的是帮助所有人通过R使用Apache Spark。第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。<br/>【推荐语】<br/>如果你和大多数R语言用户一样,那你肯定喜欢统计学,也能够深理解统计学。但是随着组织内部不断收集大量数据,添加Apache Spark这类工具就变得理所当然。在本书中,数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。 作者会展示如何将Spark和R结合起来行大数据分析。本书涵盖相关的数据科学话题、聚类计算,以及高级用户会感兴趣的问题。 ·在Apache Spark环境下,使用R来分析、探索、转换、可视化数据。 ·构建统计模型来提取信息并预测输出,自动化生产级的工作流程。 ·使用分布式计算技术在多台机器上行分析和建模。 ·轻松使用Spark处理多个数据源和格式的大规模数据。 ·学习其他用于大规模图处理、地理空间分析和基因组学分析的建模框架。 ·深高级话题,包括定制转换、实时数据处理和创建定制化Spark扩展。<br/>【作者】<br/>Javier Luraschi是大规模数据科学诸多库的发明者,包括sparklyr、r2d3、pins和cloudml。 Kevin Kuo构建了机器学习库,并领导了Kasa AI的放保险研究。 Edgar Ruiz构建了企业级的数据解决方案工具,包括dbplot、tidypredict和modeldb。<br/>
目录展开

O’Reilly Media,Inc.介绍

译者序

序言

前言

格式化

致谢

本书约定

示例代码

O’Reilly在线学习平台(O’Reilly Online Learning)

如何联系我们

第1章 引言

1.1 概述

1.2 Hadoop

1.3 Spark

1.4 R

1.5 sparklyr

1.6 小结

第2章 开始

2.1 概述

2.2 预备操作

2.2.1 安装sparklyr

2.2.2 安装Spark

2.3 连接

2.4 使用Spark

2.4.1 网络接口

2.4.2 分析

2.4.3 建模

2.4.4 数据

2.4.5 扩展

2.4.6 分布式R

2.4.7 流式数据

2.4.8 日志

2.5 断开连接

2.6 使用RStudio

2.7 资源

2.8 小结

第3章 分析

3.1 概述

3.2 数据导入

3.3 数据整理

3.3.1 内置函数

3.3.2 相关性

3.4 可视化

3.4.1 使用ggplot2

3.4.2 使用dbplot

3.5 建模

3.6 沟通

3.7 小结

第4章 建模

4.1 概述

4.2 探索性数据分析

4.3 特征工程

4.4 监督式学习

4.4.1 广义线性回归

4.4.2 其他模型

4.5 非监督式学习

4.5.1 数据准备

4.5.2 主题建模

4.6 小结

第5章 管道操作

5.1 概述

5.2 创建工作

5.3 用例

5.4 操作模式

5.5 交互性

5.6 部署

5.6.1 批打分

5.6.2 实时打分

5.7 小结

第6章 集群

6.1 概述

6.2 本地化

6.2.1 管理器

6.2.2 发行版

6.3 云端

6.3.1 亚马逊

6.3.2 Databricks

6.3.3 谷歌

6.3.4 IBM

6.3.5 微软

6.3.6 Qubole

6.4 Kubernetes

6.5 工具

6.5.1 RStudio

6.5.2 Jupyter

6.5.3 Livy

6.6 小结

第7章 连接

7.1 概述

7.1.1 边缘节点

7.1.2 Spark主目录

7.2 本地模式

7.3 单机模式

7.4 YARN

7.4.1 YARN客户端

7.4.2 YARN集群

7.5 Livy

7.6 Mesos

7.7 Kubernetes

7.8 云模式

7.9 批量模式

7.10 工具

7.11 多次连接

7.12 故障排除

7.12.1 记录日志

7.12.2 Spark Submit

7.12.3 Windows

7.13 小结

第8章 数据

8.1 概述

8.2 读取数据

8.2.1 路径

8.2.2 模式

8.2.3 内存

8.2.4 列

8.3 写入数据

8.4 复制数据

8.5 文件格式

8.5.1 CSV

8.5.2 JSON

8.5.3 Parquet

8.5.4 其他

8.6 文件系统

8.7 存储系统

8.7.1 Hive

8.7.2 Cassandra

8.7.3 JDBC

8.8 小结

第9章 调试

9.1 概述

9.1.1 计算图

9.1.2 时间线

9.2 配置

9.2.1 连接设置

9.2.2 提交设置

9.2.3 运行时设置

9.2.4 sparklyr设置

9.3 分区

9.3.1 隐式分区

9.3.2 显式分区

9.4 缓存

9.4.1 检查点

9.4.2 内存

9.5 重洗

9.6 序列化

9.7 配置文件

9.8 小结

第10章 扩展

10.1 概述

10.2 H2O

10.3 图模型

10.4 XGBoost

10.5 深度学习

10.6 基因组学

10.7 空间数据

10.8 故障排除

10.9 小结

第11章 分布式R

11.1 概述

11.2 用例

11.2.1 定制解析器

11.2.2 分区建模

11.2.3 网格搜索

11.2.4 Web API

11.2.5 模拟

11.3 分区

11.4 分组

11.5 列

11.6 context参数

11.7 函数

11.8 程序包

11.9 集群需求

11.9.1 安装R

11.9.2 Apache Arrow

11.10 故障排除

11.10.1 工作节点日志

11.10.2 解决超时

11.10.3 检查分区

11.10.4 调试工作节点

11.11 小结

第12章 数据流

12.1 概述

12.2 转换

12.2.1 分析

12.2.2 建模

12.2.3 管道

12.2.4 分布式R

12.3 Kafka

12.4 Shiny

12.5 小结

第13章 社区贡献

13.1 概述

13.2 Spark API

13.3 Spark扩展

13.4 使用Scala代码

13.5 小结

附录A 补充参考代码

前言

第1章

第2章

第3章

第4章

第6章

第12章

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部