万本电子书0元读

万本电子书0元读

顶部广告

Spark机器学习电子书

Apache Spark是一个分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有并行计算框架中,鲜有能兼顾速度、可扩展性、内存处理以及容错性,同时还能简化编程,提供灵活、表达力丰富的强大API的,Apache Spark就是这样一个难得的框架。 本书介绍了Spark的基础知识,从利用Spark API来载和处理数据,到将数据作为多种机器学习模型的输。此外还通过详细的例子和现实应用讲解了常见的机器学习模型,包括推荐系统、分类、回归、聚类和降维。另外还介绍了一些高阶内容,如大规模文本数据的处理,以及Spark Streaming下的在线机器学习和模型评估方法。

售       价:¥

纸质售价:¥40.70购买纸书

143人正在读 | 0人评论 6.2

作       者:彭特里思(Nick Pentreath)

出  版  社:人民邮电出版社

出版时间:2015-08-01

字       数:22.3万

所属分类: 科技 > 计算机/网络 > 计算机教材

温馨提示:此类商品不支持退换货,不支持下载打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
《Spark机器学习》每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。 《Spark机器学习》每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。
【推荐语】
Apache Spark是一个分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有并行计算框架中,鲜有能兼顾速度、可扩展性、内存处理以及容错性,同时还能简化编程,提供灵活、表达力丰富的强大API的,Apache Spark就是这样一个难得的框架。 本书介绍了Spark的基础知识,从利用Spark API来载和处理数据,到将数据作为多种机器学习模型的输。此外还通过详细的例子和现实应用讲解了常见的机器学习模型,包括推荐系统、分类、回归、聚类和降维。另外还介绍了一些高阶内容,如大规模文本数据的处理,以及Spark Streaming下的在线机器学习和模型评估方法。 如果你是一名Scala、Java或Python发者,对机器学习和数据分析感兴趣,并想借助Spark框架来实现常见机器学习技术的大规模应用,那么本书便是为你而写。有Spark的基础知识,但并不要求你有实践经验。 通过学习本书,你将能够: 用Scala、Java或Python语言编写你的一个Spark程序; 在你的本机和Amazon EC2上创建和配置Spark发环境; 获取公的机器学习数据集,以及使用Spark对数据行载、处理、清理和转换; 借助Spark机器学习库,利用协同过滤、分类、回归、聚类和降维等常见的机器学习模型来编写程序; 编写Spark函数来评估你的机器学习模型的性能; 了解大规模文本数据的处理方法,包括特征提取和将文本数据作为机器学习模型的输; 探索在线学习方法,利用Spark Streaming来行在线学习和模型评估。
【作者】
Nick Pentreath是Graphflow公司联合创始人。Graphflow是一家大数据和机器学习公司,专注于以用户为中心的推荐系统和客户服务智能化技术。Nick拥有金融市场、机器学习和软件发背景,曾任职于高盛集团,之后去在线广告营销创业公司Cognitive Match Limited(伦敦)担任研究科学家,后又去非洲**的社交网络Mxit领导数据科学与分析团队。Nick是Apache Spark项目管理委员会成员之一。
目录展开

前言

本书内容

预备知识

本书目标

排版约定

读者反馈

客户支持

侵权行为

问题

致谢

第1章 Spark的环境搭建与运行

1.1 Spark的本地安装与配置

1.2 Spark集群

1.3 Spark编程模型

1.4 Spark Scala编程入门

1.5 Spark Java编程入门

1.6 Spark Python编程入门

1.7 在Amazon EC2上运行Spark

1.8 小结

第2章 设计机器学习系统

2.1 MovieStream介绍

2.2 机器学习系统商业用例

2.3 机器学习模型的种类

2.4 数据驱动的机器学习系统的组成

2.5 机器学习系统架构

2.6 小结

第3章 Spark上数据的获取、处理与准备

3.1 获取公开数据集

3.2 探索与可视化数据

3.3 处理与转换数据

3.4 从数据中提取有用特征

3.5 小结

第4章 构建基于Spark的推荐引擎

4.1 推荐模型的分类

4.2 提取有效特征

4.3 训练推荐模型

4.4 使用推荐模型

4.5 推荐模型效果的评估

4.6 小结

第5章 Spark构建分类模型

5.1 分类模型的种类

5.2 从数据中抽取合适的特征

5.3 训练分类模型

5.4 使用分类模型

5.5 评估分类模型的性能

5.6 改进模型性能以及参数调优

5.7 小结

第6章 Spark构建回归模型

6.1 回归模型的种类

6.2 从数据中抽取合适的特征

6.3 回归模型的训练和应用

6.4 评估回归模型的性能

6.5 改进模型性能和参数调优

6.6 小结

第7章 Spark构建聚类模型

7.1 聚类模型的类型

7.2 从数据中提取正确的特征

7.3 训练聚类模型

7.4 使用聚类模型进行预测

7.5 评估聚类模型的性能

7.6 聚类模型参数调优

7.7 小结

第8章 Spark应用于数据降维

8.1 降维方法的种类

8.2 从数据中抽取合适的特征

8.3 训练降维模型

8.4 使用降维模型

8.5 评价降维模型

8.6 小结

第9章 Spark高级文本处理技术

9.1 处理文本数据有什么特别之处

9.2 从数据中抽取合适的特征

9.3 使用TF-IDF模型

9.4 评估文本处理技术的作用

9.5 Word2Vec模型

9.6 小结

第10章 Spark Streaming在实时机器学习上的应用

10.1 在线学习

10.2 流处理

10.3 创建Spark Streaming应用

10.4 使用Spark Streaming进行在线学习

10.5 在线模型评估

10.6 小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部