当当云阅读 > 科技 > 计算机/网络 > 程序设计 > 深度实践Spark机器学习

深度实践Spark机器学习电子书

适读人群：本书适合于初中级大数据、机器学习的技术人员。【免费获取】配套代码数据导读PPT 内容拓展作者答疑群，搭配图书学习效果更佳！获取方式： 1、微信关注“华章计算机” 2、在后台回复关键词：PyTorch （1）作者是有20余年工作经验的大数据专家和人工智能专家，就职于国家外汇交易中心。（2）本书系统讲解了Spark机器学习的技术、原理、组件、算法，以及构建Spark机器学习系统的方法、流程、标准和规范。

售价：¥

纸质售价：¥49.80购买纸书

6人正在读 | 0人评论

6.6

作者：吴茂贵,郁明敏,朱凤元,张粤磊

出版社：机械工业出版社

出版时间：2018-03-13

字数：23.4万

所属分类：科技 > 计算机/网络 > 程序设计

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(2条)

读书简介
目录
累计评论(2条)

本书系统讲解了Spark机器学习的技术、原理、组件、算法，以及构建Spark机器学习系统的方法、流程、标准和规范。此外，还介绍了Spark的深度学习框架TensorFlowOnSpark，以及如何借助它实现卷积神经网络和循环神经网络。全书共14章，分为四个部分：一部分（1~7章）主要讲解了Spark机器学习的技术、原理和核心组件，包括Spark ML、Spark ML Pipeline、Spark MLlib，以及如何构建一个Spark机器学习系统。第二部分（8~12章）主要以实例为主，讲解了Spark ML的各种机器学习算法，包括推荐模型、分类模型、聚类模型、回归模型，以及PySpark决策树模型和Spark R朴素贝叶斯模型。第三部（第13章）与之前的批量处理不同，本章以在线数据或流式数据为主，讲解了Spark的流式计算框架Spark Streaming。第四部分（第14章）介绍了Spark深度学习，主要包括TensorFlow的基础知识及它与Spark的整合框架TensorFlowOnSpark。 【推荐语】 适读人群：本书适合于初中级大数据、机器学习的技术人员。【免费获取】配套代码数据导读PPT 内容拓展作者答疑群，搭配图书学习效果更佳！获取方式： 1、微信关注“华章计算机” 2、在后台回复关键词：PyTorch （1）作者是有20余年工作经验的大数据专家和人工智能专家，就职于国家外汇交易中心。（2）本书系统讲解了Spark机器学习的技术、原理、组件、算法，以及构建Spark机器学习系统的方法、流程、标准和规范。（3）肖京等国家千人计划学者高度评价并推荐。 【作者】 吴茂贵资深BI和大数据专家，就职于中国外汇交易中心，在BI、数据挖掘与分析、数据仓库、机器学习等领域有超过20年的工作经验，在Spark机器学习、TensorFlow深度学习领域大量的实践经验。郁明敏对大数据、机器学习有一定的研究，擅长Python、Hadoop、Spark等技术，曾获得“江苏省TI杯大学生电子竞技大赛”二等奖和全国大学生数学建模大赛二等奖。朱凤元毕业于香港浸会大学，获运筹学与商业统计硕士学位，毕业后在飞牛网、永安保险、麦芽金服等公司从事数据挖掘建模工作。张粤磊资深DBA和大数据架构师，10余年一线数据数据挖掘与分析实战经验。先后在咨询、金融、互联网行业担任数据平台技术负责人或架构师。杨本法高级算法工程师，在机器学习、文本挖掘、可视化等领域有多年实践经验。熟悉Hadoop生态圈的相关技术，在R、Spark方面有丰富的实战经验。

目录展开

前言

第1章了解机器学习

1.1 机器学习的定义

1.2 大数据与机器学习

1.3 机器学习、人工智能及深度学习

1.4 机器学习的基本任务

1.5 如何选择合适算法

1.6 Spark在机器学习方面的优势

1.7 小结

第2章构建Spark机器学习系统

2.1 机器学习系统架构

2.2 启动集群

2.3 加载数据

2.4 探索数据

2.4.1 数据统计信息

2.4.2 数据质量分析

2.4.3 数据特征分析

2.4.4 数据的可视化

2.5 数据预处理

2.5.1 数据清理

2.5.2 数据变换

2.5.3 数据集成

2.5.4 数据归约

2.6 构建模型

2.7 模型评估

2.8 组装

2.9 模型选择或调优

2.9.1 交叉验证

2.9.2 训练–验证切分

2.10 保存模型

2.11 小结

第3章 ML Pipeline原理与实战

3.1 Pipeline简介

3.2 DataFrame

3.3 Pipeline组件

3.4 Pipeline原理

3.5 Pipeline实例

3.5.1 使用Estimator、Transformer和Param的实例

3.5.2 ML使用Pipeline的实例

3.6 小结

第4章特征提取、转换和选择

4.1 特征提取

4.1.1 词频——逆向文件频率（TF-IDF）

4.1.2 Word2Vec

4.1.3 计数向量器

4.2 特征转换

4.2.1 分词器

4.2.2 移除停用词

4.2.3 n-gram

4.2.4 二值化

4.2.5 主成分分析

4.2.6 多项式展开

4.2.7 离散余弦变换

4.2.8 字符串——索引变换

4.2.9 索引——字符串变换

4.2.10 独热编码

4.2.11 向量——索引变换

4.2.12 交互式

4.2.13 正则化

4.2.14 规范化

4.2.15 最大值——最小值缩放

4.2.16 最大值——绝对值缩放

4.2.17 离散化重组

4.2.18 元素乘积

4.2.19 SQL转换器

4.2.20 向量汇编

4.2.21 分位数离散化

4.3 特征选择

4.3.1 向量机

4.3.2 R公式

4.3.3 卡方特征选择

4.4 小结

第5章模型选择和优化

5.1 模型选择

5.2 交叉验证

5.3 训练验证拆分法

5.4 自定义模型选择

5.5 小结

第6章 Spark MLlib基础

6.1 Spark MLlib简介

6.2 Spark MLlib架构

6.3 数据类型

6.4 基础统计

6.4.1 摘要统计

6.4.2 相关性

6.4.3 假设检验

6.4.4 随机数据生成

6.5 RDD、Dataframe和Dataset

6.5.1 RDD

6.5.2 Dataset/DataFrame

6.5.3 相互转换

6.6 小结

第7章构建Spark ML推荐模型

7.1 推荐模型简介

7.2 数据加载

7.3 数据探索

7.4 训练模型

7.5 组装

7.6 评估模型

7.7 模型优化

7.8 小结

第8章构建Spark ML分类模型

8.1 分类模型简介

8.1.1 线性模型

8.1.2 决策树模型

8.1.3 朴素贝叶斯模型

8.2 数据加载

8.3 数据探索

8.4 数据预处理

8.5 组装

8.6 模型优化

8.7 小结

第9章构建Spark ML回归模型

9.1 回归模型简介

9.2 数据加载

9.3 探索特征分布

9.4 数据预处理

9.4.1 特征选择

9.4.2 特征转换

9.5 组装

9.6 模型优化

9.7 小结

第10章构建Spark ML聚类模型

10.1 K-means模型简介

10.2 数据加载

10.3 探索特征的相关性

10.4 数据预处理

10.5 组装

10.6 模型优化

10.7 小结

第11章 PySpark决策树模型

11.1 PySpark简介

11.2 决策树简介

11.3 数据加载

11.3.1 原数据集初探

11.3.2 PySpark的启动

11.3.3 基本函数

11.4 数据探索

11.5 数据预处理

11.6 创建决策树模型

11.7 训练模型进行预测

11.8 模型优化

11.8.1 特征值的优化

11.8.2 交叉验证和网格参数

11.9 脚本方式运行

11.9.1 在脚本中添加配置信息

11.9.2 运行脚本程序

11.10 小结

第12章 SparkR朴素贝叶斯模型

12.1 SparkR简介

12.2 获取数据

12.2.1 SparkDataFrame数据结构说明

12.2.2 创建SparkDataFrame

12.2.3 SparkDataFrame的常用操作

12.3 朴素贝叶斯分类器

12.3.1 数据探查

12.3.2 对原始数据集进行转换

12.3.3 查看不同船舱的生还率差异

12.3.4 转换成SparkDataFrame格式的数据

12.3.5 模型概要

12.3.6 预测

12.3.7 评估模型

12.4 小结

第13章使用Spark Streaming构建在线学习模型

13.1 Spark Streaming简介

13.1.1 Spark Streaming常用术语

13.1.2 Spark Streaming处理流程

13.2 Dstream操作

13.2.1 Dstream输入

13.2.2 Dstream转换

13.2.3 Dstream修改

13.2.4 Dstream输出

13.3 Spark Streaming应用实例

13.4 Spark Streaming在线学习实例

13.5 小结

第14章 TensorFlowOnSpark详解

14.1 TensorFlow简介

14.1.1 TensorFlow的安装

14.1.2 TensorFlow的发展

14.1.3 TensorFlow的特点

14.1.4 TensorFlow编程模型

14.1.5 TensorFlow常用函数

14.1.6 TensorFlow运行原理

14.1.7 TensorFlow系统架构

14.2 TensorFlow实现卷积神经网络

14.2.1 卷积神经网络简介

14.2.2 卷积神经网络的发展历程

14.2.3 卷积神经网络的网络结构

14.2.4 TensorFlow实现卷积神经网络

14.3 TensorFlow实现循环神经网络

14.3.1 循环神经网络简介

14.3.2 LSTM循环神经网络简介

14.3.3 LSTM循环神经网络分步说明

14.3.4 TensorFlow实现循环神经网络

14.4 分布式TensorFlow

14.4.1 客户端、主节点和工作节点间的关系

14.4.2 分布式模式

14.4.3 在Pyspark集群环境运行TensorFlow

14.5 TensorFlowOnSpark架构

14.6 TensorFlowOnSpark安装

14.7 TensorFlowOnSpark实例

14.7.1 TensorFlowOnSpark单机模式实例

14.7.2 TensorFlowOnSpark集群模式实例

14.8 小结

附录A 线性代数

A.1 向量与空间

A.2 矩阵和行列式

A.3 特征值与特征向量

附录B 概率统计

B.1 随机变量与概率分布

B.2 条件概率与贝叶斯

B.3 协方差与多元正态分布

B.4 估计与检验

附录C Scala基础

C.1 Scala简介

C.2 基础知识

C.3 常用集合

C.4 函数

累计评论(2条) 2个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

图解Skill:AI提效实战指南￥39.90

宝玉著

￥39.90

Python从入门到全栈开发￥70.00

钱超

￥70.00

大模型应用开发动手做AI Agent ￥57.47

黄佳著

￥57.47

Python网络爬虫与数据分析从入门到实践￥55.86

马国俊

￥55.86

Python编程:从入门到实践(第3版) ￥54.90

[美]埃里克·马瑟斯(Eric Matthes) 著

￥54.90

程序员必会的40种算法￥59.40

(加)伊姆兰·艾哈迈德(Imran Ahmad)

￥59.40

懒人“养虾”攻略:OpenClaw+豆包+扣子+飞书落地实战指南￥45.00

林园编著

￥45.00

量化投资：策略与技术￥22.00

丁鹏

￥22.00

Python完全自学教程￥57.54

明日科技编著

￥57.54

Python+Office:轻松实现Python办公自动化￥55.30

王国平

￥55.30

更多同类图书 >

深度实践Spark机器学习电子书

支持设备

图解Skill:AI提效实战指南 ￥39.90

Python从入门到全栈开发 ￥70.00

大模型应用开发 动手做AI Agent ￥57.47

Python网络爬虫与数据分析从入门到实践 ￥55.86

Python编程:从入门到实践(第3版) ￥54.90

程序员必会的40种算法 ￥59.40

懒人“养虾”攻略:OpenClaw+豆包+扣子+飞书 落地实战指南 ￥45.00

量化投资：策略与技术 ￥22.00

Python完全自学教程 ￥57.54

Python+Office:轻松实现Python办公自动化 ￥55.30

当当云阅读