万本电子书0元读

万本电子书0元读

顶部广告

实战机器学习电子书

本书创作团队核心成员长期从事机器学习方面的理论研究和工程实践,通过项目实战,积累了大量解决问题的方法和经验,并通过本书将自己的经验整理出来,以满足广大读者希望使用机器学习来解决实际问题的需要。

售       价:¥

纸质售价:¥99.00购买纸书

11人正在读 | 0人评论 6.2

作       者:鲍亮,崔江涛,李倩

出  版  社:清华大学出版社

出版时间:2021-10-01

字       数:26.5万

所属分类: 科技 > 计算机/网络 > 软件系统

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
随着互联网、物联网、云计算等技术的不断发展,许多领域都产生了大量的数据。利用机器学习技术分析海量数据,可以从数据中发现隐含的、有价值的规律和模式,而用于预测并采取相应动作。在上述背景下,本书从理论、技术和应用三个层面手,全面讲解如何利用机器学习技术解决实际问题。 本书共分26章,内容包括机器学习解决问题流程、问题分析与建模、数据探索与准备、特征工程、模型训练与评价、模型部署与应用、回归模型、支持向量机、决策树、集成学习、K近邻算法、贝叶斯方法、聚类算法、关联规则学习、神经网络基础、正则化、深度学习中的优化、卷积神经网络、循环神经网络、自编码器、基于深度学习的语音分离方法、基于深度学习的图像去水印方法、基于LSTM的云环境工作负载预测方法、基于QoS的服务组合问题、基于强化学习的投资组合方法、基于GAN模型的大数据系统参数优化方法。 本书内容全面、示例丰富,适合机器学习初学者以及想要全面掌握机器学习技术的算法发人员,也适合高等院校和培训机构人工智能相关专业的师生教学参考。<br/>【推荐语】<br/>本书创作团队核心成员长期从事机器学习方面的理论研究和工程实践,通过项目实战,积累了大量解决问题的方法和经验,并通过本书将自己的经验整理出来,以满足广大读者希望使用机器学习来解决实际问题的需要。<br/>【作者】<br/>鲍亮,西安电子科技大学副教授,西安电子科技大学博士。主要研究方向为软件体系结构、面向服务的计算和云计算等,主持并完成科研课题多项,发表学术论文20余篇。 崔江涛,西安电子科技大学计算机科学与技术学院教授、博士生导师。西安电子科技大学计算机学院博士。2018年选陕西省高等学校教学名师,2020年选陕西省特支计划领军人才。享受国务院政府特殊津贴,选第八届*科学技术委员会学部委员。  李倩,西安交通大学讲师,西安交通大学博士。主要研究方向为行为金融学和组合投资等,主持并完成科研课题多项,发表学术论文10余篇。<br/>
目录展开

内容简介

前言

本书读者

源码下载与技术支持

本书作者与致谢

目 录

第1章 机器学习解决问题流程

1.1 机器学习基础

1.1.1 机器学习定义

1.Arthur Samuel的定义(1959)

2.Tom Mitchell的定义(1998)

3.Christopher Bishop的定义(2006)

4.Trevor Hastie等人的定义(2009)

5.李航的定义(2012)

6.Stephen Marsland的定义(2014)

7.周志华的定义(2016)

8.吴恩达(Andrew Ng)的定义(2020)

1.1.2 机器学习流派

1.符号主义(Symbolists)

2.连接主义(Connectionists)

3.进化主义(Evolutionaries)

4.贝叶斯(Bayesians)

5.行为类比(Analogizers)

1.1.3 机器学习简史

1.有监督学习

2.无监督学习

3.强化学习

1.2 机器学习解决实际问题的流程

1.3 机器学习平台介绍

1.3.1 阿里PAI

1.平台概况

2.平台特点

1.3.2 第四范式先知(Sage EE)

1.平台概况

2.平台特点

1.3.3 腾讯智能钛机器学习(TI-ML)

1.平台概况

2.平台特点

1.3.4 中科院EasyML

1.平台概况

2.平台特点

1.3.5 百度机器学习BML

1.平台概况

2.平台特点

1.3.6 华为AI开发平台ModelArts

1.平台概况

2.平台特点

1.3.7 微软Azure机器学习服务

1.平台概况

2.平台特点

1.3.8 谷歌Cloud AutoML平台

1.平台概况

2.平台特点

1.3.9 亚马逊SageMaker

1.平台介绍

2.平台特点

1.4 本章小结

第2章 问题分析与建模

2.1 问题分析

2.1.1 明确和理解问题

1.准确地描述问题

2.明确问题的构成要素

3.探究问题的本质

4.显性化问题隐含的假设

2.1.2 拆解和定位问题

1.用公式思维拆解问题

2.构建问题的层次结构

3.MECE法则

2.2 数据分析

2.2.1 描述统计分析

2.2.2 相关分析

2.2.3 回归分析

2.2.4 分类分析

1.无监督分箱法

2.有监督分箱法

2.2.5 聚类分析

1.性质分类

2.方法分类

2.3 问题建模

2.4 心脏病UCI数据集案例

2.4.1 问题描述

2.4.2 问题分析

1.明确和理解问题

2.拆解和定位问题

2.4.3 数据分析

1.数据分布分析

2.相关分析

2.4.4 问题建模

2.5 本章小结

第3章 数据探索与准备

3.1 ETL技术

3.1.1 ETL工作方式

1.数据抽取

2.数据转换

3.数据加载

3.1.2 ETL实现模式

1.日志查询模式

2.增量字段模式

3.触发器模式

4.全量抽取模式

3.1.3 ETL发展历程

1.传统ETL

2.现代ETL

3.流式ETL

3.1.4 主流ETL工具

1.DataPipeline

2.Kettle

3.Talend

4.Informatica

5.DataX

6.Oracle GoldenGate

3.2 数据清洗

3.2.1 数据缺失处理

1.删除整条数据

2.删除缺失属性

3.缺失值补全

3.2.2 异常值处理

1.统计分析法

2.3σ原则法

3.可视化法

3.3 采样

3.3.1 拒绝采样

3.3.2 重要性采样

3.3.3 马尔可夫链蒙特卡洛采样

1.马尔可夫链

2.蒙特卡洛方法

1.Metropolis-Hasting采样法

2.Gibbs采样法

3.4 本章小结

第4章 特征工程

4.1 数据预处理

4.1.1 特征缩放

4.1.2 特征编码

1.类别特征

2.数字特征

3.时间型变量

4.空间变量

5.文本特征

4.2 特征选择

4.2.1 过滤式选择Filter

1.单变量选择法

2.多变量选择法

4.2.2 包裹式选择Wrapper

1.确定性算法

2.随机算法

3.递归特征消除(recursive feature elimination, RFE)

4.稳定性选择

4.2.3 嵌入式选择Embedded

1.基于正则项

2.基于树模型

4.3 降维

4.3.1 主成分分析PCA

1.PCA算法分析

2.如何选择正确的维数

3.PCA算法改进

4.3.2 线性判别分析

1.LDA算法分析

2.对比LDA和PCA

4.4 本章小结

第5章 模型训练与评价

5.1 模型选择

5.1.1 基础知识

1.监督学习

2.无监督学习

3.强化学习

5.1.2 模型选择的要素

5.2 模型训练

5.2.1 留出法

5.2.2 交叉验证法

5.2.3 自助法

5.3 模型调优

5.3.1 超参数调优

5.3.2 神经架构搜索

1.搜索空间

2.优化算法

3.模型评估

5.3.3 元学习

1.从模型评估中学习

2.从任务属性中学习

3.从先前的模型中学习

5.4 模型评价

5.4.1 分类问题

1.精确率与召回率

2.ROC和AUC

3.混淆矩阵

4.对数损失

5.铰链损失

6.kappa系数

7.准确率

8.海明距离

9.杰卡德相似系数

5.4.2 回归问题

1.均方误差MSE

2.平均绝对误差MAE

3.解释变异

4.决定系数

5.4.3 聚类问题

1.兰德指数

2.互信息

3.轮廓指数

5.5 本章小结

第6章 模型部署与应用

6.1 机器学习模型格式

6.1.1 scikit-learn

6.1.2 TensorFlow

6.1.3 PyTorch

6.2 机器学习模型部署

6.2.1 模型在平台内应用

1.原理

2.scikit-learn的部署方式

6.2.2 将模型封装成可执行脚本

1.原理

2.Linux环境下的实现过程

6.2.3 基于容器和微服务的模型部署方式

1.容器化和微服务

2.在Kubernetes上部署机器学习模型

6.2.4 模型部署方式对比

6.3 模型对外访问接口

6.3.1 REST架构

6.3.2 RPC架构

6.3.3 gRPC架构

6.3.4 模型对外接口对比

6.4 模型更新

6.4.1 如何更新模型

6.4.2 如何进行持续更新

1.部署模型

2.配置Jenkins

3.Kubernetes实现服务的滚动更新

6.5 本章小结

第7章 回归模型

7.1 线性回归

7.1.1 线性回归原理

1.线性回归模型

2.线性回归模型的成本函数

3.最小二乘法

7.1.2 多项式回归

7.1.3 线性回归案例

7.2 正则线性模型

7.2.1 正则线性模型原理

7.2.2 L1、L2正则化对比

1.解空间形状

2.贝叶斯先验

7.3 逻辑回归

7.3.1 逻辑回归原理

1.最大似然估计

2.线性回归解决分类问题的缺陷

3.逻辑回归原理

4.逻辑回归算法框架

7.3.2 逻辑回归案例

7.4 本章小结

第8章 支持向量机

8.1 绪论

8.2 支持向量机原理

8.2.1 函数间隔

8.2.2 对偶问题

8.2.3 软间隔SVM

8.2.4 KKT条件

8.2.5 支持向量

8.2.6 核函数

8.2.7 SMO

8.2.8 合页损失函数

8.3 SVR回归方法

8.4 SVM预测示例

8.5 本章小结

第9章 决策树

9.1 绪论

9.2 决策树基本概念

9.2.1 特征选择

9.2.2 信息增益

9.2.3 信息增益率

9.2.4 基尼系数

9.3 ID3算法

9.4 C4.5算法

9.4.1 决策树生成

9.4.2 决策树剪枝

9.5 CART算法

9.5.1 决策树生成

9.5.2 决策树剪枝

9.6 决策树应用

9.7 本章小结

第10章 集成学习

10.1 bagging与随机森林

10.1.1 bagging

注意

10.1.2 随机森林

10.1.3 随机森林的应用

1.随机森林在分类问题上的应用

2.随机森林在回归问题上的应用

3.随机森林的优缺点

10.1.4 随机森林的推广

1.极端随机树

2.完全随机树嵌入

3.孤立森林

10.2 boosting

10.2.1 Adaboost

1.分类

2.回归

3.正则项与优缺点

4.Adaboost应用

10.2.2 前向分步算法

1.前向分步加法模型

2.使用决策树的梯度提升算法(gradient boosting decision tree, GBDT)

3.GBDT的优缺点

4.GBDT应用

10.2.3 三大框架

1.XGBoost

注意

2.LightGBM

3.CatBoost

10.3 stacking与blending

1.stacking

2.blending

10.4 本章小结

第11章 K近邻算法

11.1 KNN算法

11.2 距离的表示

1.欧氏距离

2.曼哈顿距离

3.马氏距离

4.汉明距离

11.3 KD树

1.构造KD树

2.基于KD树的搜索

11.4 KNN心脏病预测实例

11.5 本章小结

第12章 贝叶斯方法

12.1 贝叶斯方法概述

12.2 贝叶斯决策论

1.定义1(贝叶斯公式)

2.定义2(条件风险函数)

3.定义3(期望风险)

12.3 朴素贝叶斯分类器

12.4 贝叶斯网络

12.4.1 贝叶斯网络概念

12.4.2 贝叶斯网络学习

12.4.3 贝叶斯网络推理

12.4.4 贝叶斯网络的应用

1.故障诊断

2.军事智能决策

3.医学应用

4.经济领域应用

5.交通管理

12.5 贝叶斯优化

12.5.1 贝叶斯优化框架

12.5.2 概率代理模型

12.5.3 采集函数

1.基于提升的策略

2.置信边界策略

12.5.4 贝叶斯优化的应用

1.A/B测试

2.推荐系统

3.机器人学

4.算法超参数自动优化

5.环境监控与传感器网络

12.6 贝叶斯优化迭代过程示例

12.7 本章小结

第13章 聚类算法

13.1 聚类的评价指标

13.2 距离计算

13.3 聚类算法

13.3.1 基于层次的算法

BIRCH算法

13.3.2 基于分割的算法

1.K-means算法

2.EM算法

13.3.3 基于密度的算法

1.DBSCAN算法

2.Mean Shift算法

13.4 本章小结

第14章 关联规则学习

14.1 关联规则学习概述

14.2 频繁项集

14.3 Apriori算法

14.4 FP-growth算法

1.构建FP树

2.挖掘频繁项集

14.5 本章小结

第15章 神经网络基础

15.1 神经网络概述

15.2 神经网络原理

15.2.1 神经元

15.2.2 损失函数

15.2.3 激活函数

1.Sigmoid

2.tanh

3.ReLU

4.Softmax

15.2.4 正向传播

15.2.5 反向传播

15.3 前馈神经网络

15.3.1 前馈神经网络概述

15.3.2 MNIST数据集多分类应用

15.4 本章小结

第16章 正则化

16.1 正则化概述

16.2 数据集增强

16.3 提前终止

16.4 Dropout

16.5 Batch Normalization

16.6 本章小结

第17章 深度学习中的优化

17.1 优化技术概述

17.2 优化原理

17.2.1 标准化

17.2.2 梯度下降

1.梯度下降

2.动量与Nesterov动量

3.设置适应于模型参数的学习率

17.2.3 参数初始化

17.3 自适应优化方法

17.4 参数初始化方法

17.5 本章小结

第18章 卷积神经网络

18.1 卷积神经网络概述

18.2 卷积神经网络原理

18.2.1 局部连接

18.2.2 权值共享

18.2.3 池化层

18.3 卷积神经网络的新方法

18.3.1 1D/2D/3D卷积

18.3.2 1×1卷积

18.3.3 空洞卷积

18.3.4 全卷积神经网络

18.4 卷积神经网络的应用

18.4.1 卷积神经网络的发展

18.4.2 MNIST数据集分类示例

18.5 本章小结

第19章 循环神经网络

19.1 循环神经网络概述

19.2 循环神经网络原理

19.2.1 展开计算图

19.2.2 循环神经网络

19.2.3 长期依赖

19.2.4 LSTM

19.2.5 GRU

19.2.6 双向RNN

19.2.7 深度循环网络

19.2.8 基于编码‒解码的序列到序列架构

19.3 各种RNN的优缺点及应用场景

19.4 时间序列预测问题示例

19.5 本章小结

第20章 自编码器

20.1 绪论

20.2 自编码器原理

20.2.1 经典自编码器

20.2.2 去噪自编码器

20.2.3 稀疏自编码器

20.2.4 变分自编码器

20.2.5 堆叠自编码器

20.2.6 与神经网络融合的编码器

20.3 自编码器优缺点及应用场景

20.4 自编码器应用

20.5 本章小结

第21章 基于深度学习的语音分离方法

21.1 问题背景

21.2 问题定义

21.3 相关工作

21.4 VoiceFilter的实现方法

21.4.1 说话人编码器

1.说话人识别任务

2.模型介绍

3.模型训练

21.4.2 声谱掩码网络

1.模型介绍

2.数据准备

3.数据预处理

4.模型训练

21.4.3 实验效果

21.5 本章小结

第22章 基于深度学习的图像去水印方法

22.1 图像去水印的研究背景

22.2 图像修复问题的定义

22.3 图像修复的相关工作

22.3.1 传统修复方法

22.3.2 基于深度学习的修复方法

22.3.3 修复效果评价指标

22.3.4 常用数据集

22.4 方法实现

22.4.1 基于内容编码器的生成网络模型

1.卷积化(Convolutional)

2.上采样(Up sample)

3.跳跃结构(Skip Layer)

22.4.2 损失函数设计

22.4.3 算法步骤

22.4.4 实验结果展示

22.5 本章小结

第23章 基于LSTM的云环境工作负载预测方法

23.1 工作负载预测的研究背景

23.2 工作负载预测问题的定义

23.3 工作负载预测的相关工作

23.3.1 循环神经网络

23.3.2 门控循环单元

23.4 基于LSTM的工作负载预测

23.4.1 负载数据预处理

23.4.2 LSTM预测模型

23.4.3 实验结果与分析

23.5 本章小结

第24章 基于QoS的服务组合问题

24.1 服务组合问题的研究背景

24.2 半自动服务组合问题的定义

24.3 服务组合问题的相关工作

24.3.1 求解最优解的方法

24.3.2 基于元启发式算法的方法

24.3.3 基于强化学习的方法

24.4 Q-learning算法

24.5 Q-learning算法的实现

24.5.1 状态集设计

24.5.2 动作集设计

24.5.3 回报函数设计

24.5.4 Q-learning算法步骤

24.5.5 实验结果展示

24.6 本章小结

第25章 基于强化学习的投资组合方法

25.1 投资组合问题的研究背景

25.2 投资组合指数增强问题的定义

25.2.1 符号定义

25.2.2 基本假设

25.2.3 问题描述

25.2.4 个股收益率和指数收益率

25.2.5 目标函数

25.2.6 约束条件

1.约束条件1:投资组合数量约束

2.约束条件2:卖空约束

3.约束条件3:个股权重约束

25.2.7 问题的完整定义

25.3 投资组合问题的研究方法

25.3.1 基于统计模型的方法

25.3.2 启发式算法

25.3.3 基于学习的算法

25.4 深度确定性策略梯度算法

25.5 投资组合问题的实现方法

25.5.1 数据探索与准备

1.数据采集

2.数据清洗

3.数据准备

25.5.2 模型训练与评价

1.特征工程

2.模型定义

3.模型训练

4.模型调优

5.模型评价

25.5.3 实验结果及分析

25.6 本章小结

第26章 基于GAN模型的大数据系统参数优化方法

26.1 大数据系统参数优化的研究背景

26.2 大数据系统参数优化问题的定义

26.3 大数据系统参数优化的方法

26.3.1 基于模型的大数据系统参数优化方法

26.3.2 基于评估的大数据系统参数优化方法

26.3.3 基于搜索的大数据系统参数优化方法

1.随机搜索(random search, RS)

2.BestConfig

3.遗传算法(genetic algorithm, GA)

4.AutoConfig

26.3.4 基于学习的大数据系统参数优化方法

1.RFHOC

2.BO

3.SMAC

4.Hyperopt

26.3.5 大数据系统参数优化问题的流程

26.4 ACTGAN方法

26.4.1 动机

26.4.2 原理

26.4.3 具体过程

26.4.4 实验结果

1.实验设置

2.实验结果

26.5 本章小结

26.5.1 总结

26.5.2 展望

附录1 名词及解释

附录2 数据集

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部