万本电子书0元读

万本电子书0元读

顶部广告

R大数据分析实用指南电子书

本书向你介绍各种核心R功能和大量的第三方软件包,使得R用户能够从较新的大数据技术和框架(如 Hadoop、Spark、H2O,传统基于SQL的数据库如SQlite、MariaDB和PostgreSQL,还有更灵活的NoSQL数据库如MongoDB或者HBase等)中受益。通过学习本书,你将从数据导和管理到分析和预测建模的大数据产品周期的所有阶段中亲身体验各种工具与R的整合。

售       价:¥

纸质售价:¥74.20购买纸书

15人正在读 | 0人评论 6.2

作       者:[英]西蒙·沃克威克(Simon Walkowiak) 著

出  版  社:人民邮电出版社有限公司

出版时间:2019-05-01

字       数:34.8万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
R是一个强大的、源的、函数式编程语言,可以用于广泛的编程任务。一般来讲,R语言的应用主要在数据统计与分析、机器学习、高性能计算等方面。R语言已经在多个领域赢得了认可,同时也基于其源、免费的特不断地发展壮大。 本书通过9章内容,循序渐地揭示了大数据的概念,介绍了如何使用R行数据处理,如何创建Hadoop虚拟机,如何建立和部署SQL数据库,同时还介绍了MongoDB、HBase、Spark、Hive相关的内容,并介绍了R的潜在应用场景。 本书适合中级数据分析师、数据工程师、统计学家、研究人员和数据科学家阅读,需要读者具备数据分析、数据管理和大数据算法的基本知识。<br/>【推荐语】<br/>本书向你介绍各种核心R功能和大量的第三方软件包,使得R用户能够从较新的大数据技术和框架(如 Hadoop、Spark、H2O,传统基于SQL的数据库如SQlite、MariaDB和PostgreSQL,还有更灵活的NoSQL数据库如MongoDB或者HBase等)中受益。通过学习本书,你将从数据导和管理到分析和预测建模的大数据产品周期的所有阶段中亲身体验各种工具与R的整合。<br/>【作者】<br/>Simon Walkowiak是Mind Project公司的认知神经系统科学家和总经理,Mind Project公司是一家位于英国伦敦的大数据预测分析咨询公司。在此之前,Simon 是欧洲的社会经济数据库—— 英国科研数据服务(UKDS,位于埃塞克斯大学)的数据主管人。Simon在处理和管理大规模数据集方面拥有丰富的经验,例如普查、传感器、智能电表数据、电信数据和众所周知的政治和社会调查。Simon在公共机构和国际公司设了大量的数据科学和 R 培训课程。他还在英国的几所主要的大学以及由分析与数据科学研究所(Institute of Analytics and Data Science,IADS)组织的大数据分析暑期班教授大数据方法课程。<br/>
目录展开

版 权

版权声明

内容提要

作者简介

致谢

技术审稿人简介

前言

资源与支持

第1章 大数据时代

1.1 大数据——重新定义怪物

1.2 大数据工具箱——为大而生

1.2.1 Hadoop——屋中之象

1.2.2 数据库

1.2.3 Hadoop的Spark化

1.3 R语言——大数据的无冕之王

1.4 小结

第2章 R编程语言与统计环境的介绍

2.1 学习R

2.2 R语言基础回顾

2.2.1 准备R和RStudio

2.2.2 R语言数据结构

2.2.3 导出R数据对象

2.3 应用数据科学与R

2.3.1 导入不同格式的数据

2.3.2 探索性数据分析

2.3.3 数据聚合和列联表

2.3.4 假设检验和统计推断

2.3.5 数据可视化包

2.4 小结

第3章 由内而外释放R的力量

3.1 R的传统局限性

3.1.1 内存外的数据

3.1.2 处理速度

3.2 超越内存限制

3.2.1 使用ff和ffbase软件包进行数据转换和聚合

3.2.2 使用ff和ffbase包的广义线性模型

3.2.3 使用bigmemory包扩展内存

3.3 R的并行

3.3.1 从bigmemory到更快的计算

3.3.2 未来的R并行处理

3.4 使用data.table包和其他工具提高R性能

3.4.1 使用data.table包快速数据导入和操作

3.4.2 编写更好的R代码

3.5 小结

第4章 R相关的Hadoop和MapReduce框架

4.1 Hadoop架构

4.1.1 Hadoop分布式文件系统

4.1.2 MapReduce框架

4.1.3 其他Hadoop原生工具

4.1.4 学习Hadoop

4.2 云上的单节点Hadoop

4.2.1 在Azure上部署Hortonworks Sandbox

4.2.2 Java语言的Hadoop单词记数示例

4.2.3 R语言的Hadoop单词记数示例

4.3 HDInsight——Azure上的多节点Hadoop集群

4.3.1 创建第一个HDInsight集群

4.3.2 智能电表数据分析示例——在HDInsight集群上使用R

4.4 小结

第5章 R与关系型数据库管理系统(RDBMS)

5.1 关系型数据库管理系统(RDBMS)

5.1.1 常用RDBMS简介

5.1.2 结构化查询语言(SQL)

5.2 用SQLite连接R

5.2.1 准备并导入数据到本地SQLite数据库

5.2.2 通过RStudio连接SQLite数据库

5.3 在Amazon EC2实例中连接MariaDB和R

5.3.1 准备EC2实例和RStudio服务器

5.3.2 准备MariaDB和数据

5.3.3 连接MariaDB和RStudio

5.4 连接Amazon RDS上的PostgreSQL和R

5.4.1 启动一个Amazon RDS数据库实例

5.4.2 准备并上传数据到Amazon RDS上

5.4.3 从RStudio 远程查询 Amazon RDS上的PostgreSQL

5.5 小结

第6章 R与非关系型数据库

6.1 NoSQL数据库简介

流行非关系型数据库简介

6.2 用R操作MongoDB

6.2.1 MongoDB简介

6.2.2 在Amazon EC2上安装MongoDB并与R连接

6.2.3 使用MongoDB和R处理大数据

6.3 Hbase与R

6.3.1 Azure HDInsight与HBase和RStudio Server

6.3.2 将数据导入HDFS和HBase

6.3.3 使用rhbase包读取和查阅 Hbase

6.4 小结

第7章 比Hadoop更快——使用R编写Spark

7.1 为大数据分析服务的Spark

7.2 多节点HDInsight集群上使用R的Spark

7.2.1 部署使用支持Spark和R/RStudio的HDInsight

7.2.2 将数据读入HDFS和Hive

7.2.3 使用SparkR分析湾区共享单车数据

7.3 小结

第8章 R语言大数据机器学习

8.1 机器学习是什么

8.1.1 机器学习算法

8.1.2 监督和无监督机器学习方法

8.1.3 分类和聚类算法

8.1.4 R机器学习方法

8.1.5 大数据机器学习工具

8.2 在HDInsight集群中使用Spark和R的GLM示例

8.2.1 准备Spark群集并从HDFS读取数据

8.2.2 Spark中的R语言逻辑回归

8.3 R中基于Hadoop H2O 的朴素贝叶斯

8.3.1 在R中运行Hadoop上的H2O实例

8.3.2 读取和探索H2O中的数据

8.3.3 R中基于H2O的朴素贝叶斯

8.4 R中基于Hadoop H2O 的神经网络

8.4.1 神经网络的工作原理

8.4.2 在H2O上运行神经网络模型

8.5 小结

第9章 R语言的未来——大数据、快数据、智能数据

9.1 R大数据分析的现状

9.1.1 超过单机内存的数据

9.1.2 更快的R数据处理

9.1.3 Hadoop与R

9.1.4 Spark与R

9.1.5 R与数据库

9.1.6 机器学习与R

9.2 R的未来

9.2.1 大数据

9.2.2 快数据

9.2.3 智能数据

9.3 如何提升

9.4 小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部