欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > 大规模数据分析和建模:基于Spark与R

大规模数据分析和建模:基于Spark与R

| | 手机阅读

扫描下载当当云阅读App

大规模数据分析和建模:基于Spark与R电子书

如果你和大多数R语言用户一样，那你肯定喜欢统计学，也能够深理解统计学。但是随着组织内部不断收集大量数据，添加Apache Spark这类工具就变得理所当然。在本书中，数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。作者会展示如何将Spark和R结合起来行大数据分析。本书涵盖相关的数据科学话题、聚类计算，以及高级用户会感兴趣的问题。

售价：¥

纸质售价：¥64.20购买纸书

19人正在读 | 0人评论

6.7

作者：(美)哈维尔·卢拉辛(Javier Luraschi),(美)凯文·郭(Kevin Kuo),(美)埃德加·鲁伊斯(Edgar Ruiz)

出版社：机械工业出版社

出版时间：2020-07-01

字数：20.0万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

这本书的目的是帮助所有人通过R使用Apache Spark。第1章~第5章，简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题，包括分布式R、Streaming和社区贡献等。<br/>【推荐语】<br/>如果你和大多数R语言用户一样，那你肯定喜欢统计学，也能够深理解统计学。但是随着组织内部不断收集大量数据，添加Apache Spark这类工具就变得理所当然。在本书中，数据科学家和使用大规模数据应用的专业人员会学到如何使用Spark和R解决大数据和大计算问题。作者会展示如何将Spark和R结合起来行大数据分析。本书涵盖相关的数据科学话题、聚类计算，以及高级用户会感兴趣的问题。 ·在Apache Spark环境下，使用R来分析、探索、转换、可视化数据。 ·构建统计模型来提取信息并预测输出，自动化生产级的工作流程。 ·使用分布式计算技术在多台机器上行分析和建模。 ·轻松使用Spark处理多个数据源和格式的大规模数据。 ·学习其他用于大规模图处理、地理空间分析和基因组学分析的建模框架。 ·深高级话题，包括定制转换、实时数据处理和创建定制化Spark扩展。<br/>【作者】<br/>Javier Luraschi是大规模数据科学诸多库的发明者，包括sparklyr、r2d3、pins和cloudml。 Kevin Kuo构建了机器学习库，并领导了Kasa AI的放保险研究。 Edgar Ruiz构建了企业级的数据解决方案工具，包括dbplot、tidypredict和modeldb。<br/>

目录展开

O’Reilly Media，Inc.介绍

译者序

序言

前言

格式化

致谢

本书约定

示例代码

O’Reilly在线学习平台（O’Reilly Online Learning）

如何联系我们

第1章引言

1.1 概述

1.2 Hadoop

1.3 Spark

1.4 R

1.5 sparklyr

1.6 小结

第2章开始

2.1 概述

2.2 预备操作

2.2.1 安装sparklyr

2.2.2 安装Spark

2.3 连接

2.4 使用Spark

2.4.1 网络接口

2.4.2 分析

2.4.3 建模

2.4.4 数据

2.4.5 扩展

2.4.6 分布式R

2.4.7 流式数据

2.4.8 日志

2.5 断开连接

2.6 使用RStudio

2.7 资源

2.8 小结

第3章分析

3.1 概述

3.2 数据导入

3.3 数据整理

3.3.1 内置函数

3.3.2 相关性

3.4 可视化

3.4.1 使用ggplot2

3.4.2 使用dbplot

3.5 建模

3.6 沟通

3.7 小结

第4章建模

4.1 概述

4.2 探索性数据分析

4.3 特征工程

4.4 监督式学习

4.4.1 广义线性回归

4.4.2 其他模型

4.5 非监督式学习

4.5.1 数据准备

4.5.2 主题建模

4.6 小结

第5章管道操作

5.1 概述

5.2 创建工作

5.3 用例

5.4 操作模式

5.5 交互性

5.6 部署

5.6.1 批打分

5.6.2 实时打分

5.7 小结

第6章集群

6.1 概述

6.2 本地化

6.2.1 管理器

6.2.2 发行版

6.3 云端

6.3.1 亚马逊

6.3.2 Databricks

6.3.3 谷歌

6.3.4 IBM

6.3.5 微软

6.3.6 Qubole

6.4 Kubernetes

6.5 工具

6.5.1 RStudio

6.5.2 Jupyter

6.5.3 Livy

6.6 小结

第7章连接

7.1 概述

7.1.1 边缘节点

7.1.2 Spark主目录

7.2 本地模式

7.3 单机模式

7.4 YARN

7.4.1 YARN客户端

7.4.2 YARN集群

7.5 Livy

7.6 Mesos

7.7 Kubernetes

7.8 云模式

7.9 批量模式

7.10 工具

7.11 多次连接

7.12 故障排除

7.12.1 记录日志

7.12.2 Spark Submit

7.12.3 Windows

7.13 小结

第8章数据

8.1 概述

8.2 读取数据

8.2.1 路径

8.2.2 模式

8.2.3 内存

8.2.4 列

8.3 写入数据

8.4 复制数据

8.5 文件格式

8.5.1 CSV

8.5.2 JSON

8.5.3 Parquet

8.5.4 其他

8.6 文件系统

8.7 存储系统

8.7.1 Hive

8.7.2 Cassandra

8.7.3 JDBC

8.8 小结

第9章调试

9.1 概述

9.1.1 计算图

9.1.2 时间线

9.2 配置

9.2.1 连接设置

9.2.2 提交设置

9.2.3 运行时设置

9.2.4 sparklyr设置

9.3 分区

9.3.1 隐式分区

9.3.2 显式分区

9.4 缓存

9.4.1 检查点

9.4.2 内存

9.5 重洗

9.6 序列化

9.7 配置文件

9.8 小结

第10章扩展

10.1 概述

10.2 H2O

10.3 图模型

10.4 XGBoost

10.5 深度学习

10.6 基因组学

10.7 空间数据

10.8 故障排除

10.9 小结

第11章分布式R

11.1 概述

11.2 用例

11.2.1 定制解析器

11.2.2 分区建模

11.2.3 网格搜索

11.2.4 Web API

11.2.5 模拟

11.3 分区

11.4 分组

11.5 列

11.6 context参数

11.7 函数

11.8 程序包

11.9 集群需求

11.9.1 安装R

11.9.2 Apache Arrow

11.10 故障排除

11.10.1 工作节点日志

11.10.2 解决超时

11.10.3 检查分区

11.10.4 调试工作节点

11.11 小结

第12章数据流

12.1 概述

12.2 转换

12.2.1 分析

12.2.2 建模

12.2.3 管道

12.2.4 分布式R

12.3 Kafka

12.4 Shiny

12.5 小结

第13章社区贡献

13.1 概述

13.2 Spark API

13.3 Spark扩展

13.4 使用Scala代码

13.5 小结

附录A 补充参考代码

前言

第1章

第2章

第3章

第4章

第6章

第12章

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

你好!Python

你好!Python ￥60.00

关东升

￥60.00

02

Excel大神是怎么做表的

Excel大神是怎么做表的￥45.00

吉田拳

￥45.00

03

巧用ChatGPT进行数据分析与挖掘

巧用ChatGPT进行数据分析与挖掘￥59.00

谢佳标

￥59.00

04

人形机器人(原书第2版)

人形机器人(原书第2版) ￥47.00

(日)梶田秀司(Shuuji Kajita)

￥47.00

05

学会提问,驾驭AI:提示词从入门到精通

学会提问,驾驭AI:提示词从入门到精通￥61.60

程希冀

￥61.60

06

大模型RAG实战:RAG原理、应用与系统构建

大模型RAG实战:RAG原理、应用与系统构建￥59.00

汪鹏;谷清水;卞龙鹏

￥59.00

07

精通API架构:设计、运维与演进

精通API架构:设计、运维与演进￥59.00

(英)詹姆斯·高夫;(英)丹尼尔·布莱恩特;(英)马修·奥本

￥59.00

08

算法基础:打开算法之门(双色版)

算法基础:打开算法之门(双色版) ￥47.00

(美)托马斯·H· 科尔曼(Thomas H· Cormen)

￥47.00

09

架构师启示录:知识模型、落地方法与思维模式

架构师启示录:知识模型、落地方法与思维模式￥47.00

灵犀

￥47.00

10

Prompt魔法:提示词工程与ChatGPT行业应用

Prompt魔法:提示词工程与ChatGPT行业应用￥53.00

丁博生;张似衡;卢森煌;吴楠

￥53.00

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当读书5.0问答

意见反馈

Copyright (C) 当当网 2004-2021, All Rights Reserved

京ICP备17043473号-1|出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书