万本电子书0元读

万本电子书0元读

顶部广告

SparkMLlib机器学习实践(第2版)电子书

MLlib是Apache Spark机器学习库。本书入门简单,实例丰富,详解协同过滤、线性回归、分类、决策树、保序回归、聚类、关联、数据降维、特征提取和转换等MLlib主要算法,用实例说明MLlib大数据机器学习算法的运用。

售       价:¥

纸质售价:¥38.70购买纸书

137人正在读 | 3人评论 6.2

作       者:王晓华,夏毓彦

出  版  社:清华大学出版社

出版时间:2017-03-01

字       数:14.5万

所属分类: 科技 > 计算机/网络 > 软件系统

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(3条)
  • 读书简介
  • 目录
  • 累计评论(3条)
Spark作为新兴的、应用范围*为广泛的大数据处理源框架引起了广泛的关注,它吸引了大量程序设计和发人员行相关内容的学习与发,其中MLlib是Spark框架使用的核心。本书是一本细致介绍Spark MLlib程序设计的图书,门简单,示例丰富。 本书分为13章,从Spark基础安装和配置始,依次介绍MLlib程序设计基础、MLlib的数据对象构建、MLlib中RDD使用介绍,各种分类、聚类、回归等数据处理方法,*后还通过一个完整的实例,回顾了前面的学习内容,并通过代码实现了一个完整的分析过程。 本书理论内容由浅而深,采取实例和理论相结合的方式,讲解细致直观,适合Spark MLlib初学者、大数据分析和挖掘人员,也适合高校和培训学习相关专业的师生教学参考。<br/>【推荐语】<br/>MLlib是Apache Spark机器学习库。本书门简单,实例丰富,详解协同过滤、线性回归、分类、决策树、保序回归、聚类、关联、数据降维、特征提取和转换等MLlib主要算法,用实例说明MLlib大数据机器学习算法的运用。<br/>【作者】<br/>王晓华,高校资深计算机专业讲师,主要研究方向为云计算、数据挖掘;曾主持和参与多项国家和省级科研课题,发表过多篇论文,有一项专利。<br/>
目录展开

作者简介

内容简介

前言

第1章 星星之火

1.1 大数据时代

1.2 大数据分析时代

1.3 简单、优雅、有效——这就是Spark

1.4 核心——MLlib

1.5 星星之火,可以燎原

1.6 小结

第2章 Spark安装和开发环境配置

2.1 Windows单机模式Spark安装和配置

2.2 经典的WordCount

2.3 小结

第3章 RDD详解

3.1 RDD是什么

3.2 RDD工作原理

3.3 RDD应用API详解

3.4 小结

第4章 MLlib基本概念

4.1 MLlib基本数据类型

4.2 MLlib数理统计基本概念

4.3 小结

第5章 协同过滤算法

5.1 协同过滤

5.2 相似度度量

5.3 MLlib中的交替最小二乘法(ALS算法)

5.4 小结

第6章 MLlib线性回归理论与实战

6.1 随机梯度下降算法详解

6.2 MLlib回归的过拟合

6.3 MLlib线性回归实战

6.4 小结

第7章 MLlib分类实战

7.1 逻辑回归详解

7.2 支持向量机详解

7.3 朴素贝叶斯详解

7.4 小结

第8章 决策树与保序回归

8.1 决策树详解

8.2 保序回归详解

8.3 小结

第9章 MLlib中聚类详解

9.1 聚类与分类

9.2 MLlib中的Kmeans算法

9.3 高斯混合聚类

9.4 快速迭代聚类

9.5 小结

第10章 MLlib中关联规则

10.1 Apriori频繁项集算法

10.2 FP-growth算法

10.3 小结

第11章 数据降维

11.1 奇异值分解(SVD)

11.2 主成分分析(PCA)

11.3 小结

第12章 特征提取和转换

12.1 TF-IDF

12.2 词向量化工具

12.3 基于卡方检验的特征选择

12.4 小结

第13章 MLlib实战演练——鸢尾花分析

13.1 建模说明

13.2 数据预处理和分析

13.3 长与宽之间的关系——数据集的回归分析

13.4 使用分类和聚类对鸢尾花数据集进行处理

13.5 最终的判定——决策树测试

13.6 小结

累计评论(3条) 4个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部