万本电子书0元读

万本电子书0元读

顶部广告

Spark机器学习(第2版)电子书

Apache Spark是分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有的并行计算框架,鲜有能在兼顾速度、可扩展性、内存处理和容错性的同时,还提供灵活、表达力丰富的API的。Apache Spark就是这样一个难得的框架。 本书简要介绍了Spark基础知识,重在通过详细的例子和现实应用来讲解常见机器学习模型,并涉及大规模文本数据的处理、Spark Streaming下的在线机器学习和模型评估方法,以及使用Spark ML Pipeline API创建和调试机器学习流程等。第2版经过全面修订,新增有关机器学习数学基础以及Spark ML Pipeline API的章节,内容更加系统、全面、与时俱,适合所有欲借助Spark来实现常见机器学习应用的发者。

售       价:¥

纸质售价:¥74.20购买纸书

133人正在读 | 0人评论 6.2

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书结合案例研究讲解Spark 在机器学习中的应用,并介绍如何从各种公渠道获取用于机器学习系统的数据。内容涵盖推荐系统、回归、聚类、降维等经典机器学习算法及其实际应用。第2版新增了有关机器学习数学基础以及Spark ML Pipeline API 的章节,内容更加系统、全面、与时俱。<br/>【推荐语】<br/>Apache Spark是分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有的并行计算框架,鲜有能在兼顾速度、可扩展性、内存处理和容错性的同时,还提供灵活、表达力丰富的API的。Apache Spark就是这样一个难得的框架。 本书简要介绍了Spark基础知识,重在通过详细的例子和现实应用来讲解常见机器学习模型,并涉及大规模文本数据的处理、Spark Streaming下的在线机器学习和模型评估方法,以及使用Spark ML Pipeline API创建和调试机器学习流程等。第2版经过全面修订,新增有关机器学习数学基础以及Spark ML Pipeline API的章节,内容更加系统、全面、与时俱,适合所有欲借助Spark来实现常见机器学习应用的发者。 ·Spark以及机器学习基础知识介绍。 ·获取公的机器学习数据集,使用Spark对数据行载、处理、清理和转换。 ·借助Spark机器学习库,利用协同过滤、分类、回归、聚类和降维等常见的机器学习模型来编写程序。 ·了解大规模文本数据的处理方法,包括特征提取和将文本数据作为机器学习模型的输。 ·探索在线学习方法,利用Spark Streaming行在线学习和模型评估。 ·使用Spark ML Pipeline API创建和调试机器学习流程。<br/>【作者】<br/>拉结帝普·杜瓦(Rajdeep Dua) Salesforce公司工程主管,致力于造云计算和人工智能团队。曾参与Google的大数据分析工具BigQuery的宣传团队。在云计算、大数据分析和机器学习领域有近20年的经验。 曼普利特·辛格·古特拉(Manpreet Singh Ghotra) Salesforce公司软件工程主管,拥有十余年软件发经验,目前致力于发基于Apache Spark的机器学习平台。 尼克·彭特里思(Nick Pentreath) IBM源数据及人工智能技术中心首席工程师,大数据及机器学习公司Graphflow联合创始人,Spark项目管理委员会成员。 【译者简介】 蔡立宇 曾从事自然语言处理和图数据分析相关工作,现提供数据分析相关的独立咨询和发服务。坐标深圳。<br/>
目录展开

第1章 Spark的环境搭建与运行

1.1 Spark的本地安装与配置

1.2 Spark集群

1.3 Spark编程模型

1.4 SchemaRDD

1.5 Spark data frame

1.6 Spark Scala编程入门

1.7 Spark Java编程入门

1.8 Spark Python编程入门

1.9 Spark R编程入门

1.10 在Amazon EC2上运行Spark

1.11 在Amazon Elastic Map Reduce上配置并运行Spark

1.12 Spark用户界面

1.13 Spark所支持的机器学习算法

1.14 Spark ML的优势

1.15 在Google Compute Engine上用Dataproc构建Spark集群

1.16 小结

第2章 机器学习的数学基础

2.1 线性代数

2.2 梯度下降

2.3 先验概率、似然和后验概率

2.4 微积分

2.5 可视化

2.6 小结

第3章 机器学习系统设计

3.1 机器学习是什么

3.2 MovieStream介绍

3.3 机器学习系统商业用例

3.4 机器学习模型的种类

3.5 数据驱动的机器学习系统的组成

3.6 机器学习系统架构

3.7 Spark MLlib

3.8 Spark ML的性能提升

3.9 MLlib支持算法的比较

3.10 MLlib支持的函数和开发者API

3.11 MLlib愿景

3.12 MLlib版本的变迁

3.13 小结

第4章 Spark上数据的获取、处理与准备

4.1 获取公开数据集

4.2 探索与可视化数据

4.3 数据的处理与转换

4.4 从数据中提取有用特征

4.5 小结

第5章 Spark构建推荐引擎

5.1 推荐模型的分类

5.2 提取有效特征

5.3 训练推荐模型

5.4 使用推荐模型

5.5 推荐模型效果的评估

5.6 FP-Growth 算法

5.7 小结

第6章 Spark构建分类模型

6.1 分类模型的种类

6.2 从数据中抽取合适的特征

6.3 训练分类模型

6.4 使用分类模型

6.5 改进模型性能以及参数调优

6.6 小结

第7章 Spark构建回归模型

7.1 回归模型的种类

7.2 评估回归模型的性能

7.3 从数据中抽取合适的特征

7.4 回归模型的训练和应用

7.5 改进模型性能和参数调优

7.6 小结

第8章 Spark构建聚类模型

8.1 聚类模型的类型

8.2 从数据中提取正确的特征

8.3 K-均值训练聚类模型

8.4 评估聚类模型的性能

8.5 二分-均值

8.6 高斯混合模型

8.7 小结

第9章 Spark应用于数据降维

9.1 降维方法的种类

9.2 从数据中抽取合适的特征

9.3 训练降维模型

9.4 使用降维模型

9.5 评价降维模型

9.6 小结

第10章 Spark高级文本处理技术

10.1 文本数据处理的特别之处

10.2 从数据中抽取合适的特征

10.3 使用TF-IDF模型

10.4 评估文本处理技术的作用

10.5 Spark 2.0上的文本分类

10.6 Word2Vec模型

10.7 小结

第11章 Spark Streaming实时机器学习

11.1 在线学习

11.2 流处理

11.3 创建Spark Streaming应用

11.4 使用Spark Streaming进行在线学习

11.5 在线模型评估

11.6 结构化流

11.7 小结

第12章 Spark ML Pipeline API

12.1 Pipeline简介

12.2 Pipeline工作原理

12.3 Pipeline机器学习示例

12.4 小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部