当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > 概率机器学习(进阶篇)

概率机器学习(进阶篇)电子书

本书源自作者2012年的著作《机器学习：概率视角》，它不是一个简单的更新版本，而是一本全新的著作，反映了自2012年以来机器学习领域的巨大发展，尤其是深度学习方面的进展。全书通过概率建模和贝叶斯决策理论的统一视角，详细且与时俱进地介绍了机器学习（包括深度学习）的理论和方法。由于篇幅限制，新版分为上下两卷：《概率机器学习（基础篇）》和《概率机器学习（进阶篇）》。本书作为下卷进阶篇，进一步拓展了机器学习的研究范畴，聚焦更具挑战性的问题，力求对机器学习各主题展开更为深入的探讨。

售价：¥

纸质售价：¥284.10购买纸书

3人正在读 | 0人评论

6.4

作者：(美)凯文·P·墨菲(Kevin P· Murphy)

出版社：机械工业出版社

出版时间：2026-03-17

字数：90.4万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(条)

读书简介
目录
累计评论(条)

采用概率建模和贝叶斯决策理论的统一视角，全面介绍机器学习领域的经典理论和近期发展，包括深度学习领域的一些主题以及其他展，比如生成模型、变分推理、强化学习等，还增添了一些例如优化和线性代数方面的背景内容。全书分为基础篇和阶篇，本书是阶篇。 【推荐语】 本书源自作者2012年的著作《机器学习：概率视角》，它不是一个简单的更新版本，而是一本全新的著作，反映了自2012年以来机器学习领域的巨大发展，尤其是深度学习方面的展。全书通过概率建模和贝叶斯决策理论的统一视角，详细且与时俱地介绍了机器学习（包括深度学习）的理论和方法。由于篇幅限制，新版分为上下两卷：《概率机器学习（基础篇）》和《概率机器学习（阶篇）》。本书作为下卷阶篇，一步拓展了机器学习的研究范畴，聚焦更具挑战性的问题，力求对机器学习各主题展更为深的探讨。阶篇主要分为六个部分：第一部分主要讨论机器学习所涉及的数学知识，包括概率论、统计学、图模型、信息论以及优化；第二部分主要讨论机器学习的推理算法，包括高斯滤波与平滑、消息传递算法、变分推理、蒙特卡罗方法、马尔可夫蒙特卡罗方法以及序列蒙特卡罗方法；第三部分主要讨论机器学习的预测算法，包括广义线性模型、深度神经网络、贝叶斯神经网络、高斯过程以及非独立同分布的假设；第四部分主要讨论机器学习的生成算法，包括变分自动编码器、自回归模型、归一化流、基于能量的模型、扩散模型以及生成式对抗性网络；第五部分主要讨论机器学习的发现方法，包括潜在因子模型、状态空间模型、图学习、非参数化贝叶斯模型、表征学习以及可解释性；第六部分主要讨论机器学习的行为算法，包括不确定性决策、强化学习以及因果关系。 【作者】 凯文·P. 墨菲（Kevin P. Murphy），先后获得剑桥大学文学学士学位、宾夕法尼亚大学工程硕士学位以及加州大学伯克利分校博士学位。此后他在麻省理工学院完成博士后研究，并于2004至2012年间担任加拿大温哥华不列颠哥伦比亚大学计算机科学与统计学副教授。获得终身教职后，他在学术休假期间加谷歌公司，最终选择留任。目前，凯文担任谷歌Deepmind首席研究科学家兼总监，领导着由28名研究人员和工程师组成的团队，专注生成模型（包括扩散模型和大语言模型）、强化学习、机器人技术、贝叶斯推断等前沿领域。他已在学术会议和期刊上发表140余篇论文，并于2012、2022和2023年通过麻省理工学院出版社出版了三部机器学习教材（Machine Learning: A Probabilistic Perspective，Probabilistic Machine Learning: An Introduction，Probabilistic Machine Learning: Advanced Topics），其中2012年版的本教材获得了统计科学领域最佳书籍的DeGroot奖。凯文曾于2014至2017年间担任机器学习领域顶级期刊Journal of Machine Learning Research（JMLR）联合主编，现任ACM/IMS期刊Data Science及期刊Foundations and Trends in Machine Learning高级编辑。? ? 江红华东师范大学副教授，博士。1994年毕业于复旦大学计算机系。1994年7月起，华东师范大学任教至今。曾荣获华东师范大学教学成果三等奖、华东师范大学第三届青年教师课堂教学大奖赛三等奖、华东师范大学优秀任课教师奖、华东师范大学优秀教学改革研究论文二等奖、华东师范大学青年教师岗位培训优秀学员、上海市高等学校优秀毕业生等荣誉。

目录展开

前折页

书名页

版权

对本书的赞誉

译者序

前言

第1章导论

第一部分理论基础

第2章概率论

2.1 概述

2.1.1 概率空间

2.1.2 离散随机变量

2.1.3 连续随机变量

2.1.4 概率公理

2.1.5 条件概率

2.1.6 贝叶斯规则

2.2 一些常见的概率分布

2.2.1 离散分布

2.2.2 实数上的连续分布

2.2.3 正实数上的连续分布

2.2.4 在[0,1]上的连续分布

2.2.5 多元连续分布

2.3 高斯联合分布

2.3.1 多元高斯分布

2.3.2 线性高斯系统

2.3.3 线性高斯系统的通用微积分知识

2.4 指数族

2.4.1 定义

2.4.2 示例

2.4.3 对数配分函数是累积量生成函数

2.4.4 规范化（自然）参数与均值（矩）参数

2.4.5 指数族的最大似然估计

2.4.6 指数分散族

2.4.7 指数族的最大熵推导

2.5 随机变量的变换

2.5.1 可逆变换（双射）

2.5.2 蒙特卡罗近似

2.5.3 概率积分变换

2.6 马尔可夫链

2.6.1 参数化

2.6.2 应用：语言建模

2.6.3 参数估计

2.6.4 马尔可夫链的平稳分布

2.7 概率分布之间的散度度量

2.7.1 f-散度

2.7.2 积分概率度量

2.7.3 最大均值差异

2.7.4 总变差距离

2.7.5 使用二元分类器的密度比估计

第3章统计学

3.1 概述

3.2 贝叶斯统计

3.2.1 投掷硬币

3.2.2 对更复杂的数据建模

3.2.3 选择先验

3.2.4 计算问题

3.2.5 可交换性和de Finetti定理

3.3 频率学派统计

3.3.1 采样分布

3.3.2 采样分布的自举法近似

3.3.3 最大似然估计采样分布的渐近正态性

3.3.4 Fisher信息矩阵

3.3.5 频率学派统计的反直觉性质

3.3.6 为什么有人不坚持贝叶斯学派统计理论

3.4 共轭先验

3.4.1 二项式模型

3.4.2 多项式模型

3.4.3 单变量高斯分布模型

3.4.4 多元高斯分布模型

3.4.5 指数族模型

3.4.6 超越共轭先验

3.5 无信息性的先验

3.5.1 最大熵先验

3.5.2 Jeffreys先验

3.5.3 不变性先验

3.5.4 参照先验

3.6 层次先验

3.6.1 层次二项式模型

3.6.2 层次高斯分布模型

3.6.3 层次条件模型

3.7 经验贝叶斯

3.7.1 层次二项式模型的经验贝叶斯

3.7.2 层次高斯分布模型的经验贝叶斯

3.7.3 马尔可夫模型的经验贝叶斯（n-元组平滑）

3.7.4 非共轭模型的经验贝叶斯

3.8 模型选择

3.8.1 贝叶斯模型选择

3.8.2 贝叶斯模型平均

3.8.3 估计边缘似然

3.8.4 交叉验证与边缘似然之间的联系

3.8.5 条件边缘似然

3.8.6 贝叶斯留一估计

3.8.7 信息准则

3.9 模型检查

3.9.1 后验预测性检查

3.9.2 贝叶斯p-值

3.10 假设检验

3.10.1 频率学派统计的方法

3.10.2 贝叶斯方法

3.10.3 常见的统计检验对应于线性模型中的推理

3.11 缺失数据

第4章图模型

4.1 概述

4.2 有向图模型（贝叶斯网）

4.2.1 表示联合分布

4.2.2 示例

4.2.3 高斯贝叶斯网

4.2.4 条件独立性

4.2.5 生成（采样）

4.2.6 推理

4.2.7 学习

4.2.8 板块表示法

4.3 无向图模型（马尔可夫随机场）

4.3.1 表示联合分布

4.3.2 完全可见的马尔可夫随机场

4.3.3 具有潜在变量的马尔可夫随机场

4.3.4 最大熵模型

4.3.5 高斯马尔可夫随机场

4.3.6 条件独立性

4.3.7 生成（采样）

4.3.8 推理

4.3.9 学习

4.4 条件随机场

4.4.1 一维条件随机场

4.4.2 二维条件随机场

4.4.3 参数估计

4.4.4 结构化预测的其他方法

4.5 比较有向和无向概率图模型

4.5.1 条件独立性质

4.5.2 有向模型和无向模型之间的转换

4.5.3 比较条件有向概率图模型和无向概率图模型与标签偏差问题

4.5.4 有向图和无向图的组合

4.5.5 比较有向高斯概率图模型和无向高斯概率图模型

4.6 概率图模型扩展

4.6.1 因子图

4.6.2 概率电路

4.6.3 有向关系概率图模型

4.6.4 无向关系概率图模型

4.6.5 开放宇宙概率模型

4.6.6 作为概率模型的程序

4.7 结构因果模型

4.7.1 示例：教育对财富的因果影响

4.7.2 结构方程模型

4.7.3 do运算符和增强的有向无环图

4.7.4 反事实推理

第5章信息论

5.1 KL散度

5.1.1 需求条件

5.1.2 KL散度唯一满足需求条件

5.1.3 关于KL散度的思考

5.1.4 最小化KL散度

5.1.5 KL散度的性质

5.1.6 KL散度和最大似然估计

5.1.7 KL散度和贝叶斯推理

5.1.8 KL散度和指数族

5.1.9 使用Fisher信息矩阵近似KL散度

5.1.10 Bregman散度

5.2 熵

5.2.1 定义

5.2.2 连续随机变量的微分熵

5.2.3 典型集

5.2.4 交叉熵与困惑度

5.3 互信息

5.3.1 定义

5.3.2 解释

5.3.3 数据处理不等式

5.3.4 充分统计量

5.3.5 多元互信息

5.3.6 互信息的变分上下界

5.3.7 相关性网络

5.4 数据压缩（源编码）

5.4.1 无损压缩

5.4.2 有损压缩和“数据率-失真度”的权衡

5.4.3 比特反向编码

5.5 纠错码（信道编码）

5.6 信息瓶颈

5.6.1 基本信息瓶颈

5.6.2 变分信息瓶颈

5.6.3 条件熵瓶颈

第6章优化

6.1 概述

6.2 自动微分

6.2.1 函数形式的微分

6.2.2 微分链、电路和程序

6.3 随机优化

6.3.1 随机梯度下降

6.3.2 用于优化“有限和”目标的随机梯度下降

6.3.3 用于优化分布参数的随机梯度下降

6.3.4 得分函数估计器

6.3.5 重新参数化的技巧

6.3.6 Gumbel softmax技巧

6.3.7 随机计算图

6.3.8 直通式估计器

6.4 自然梯度下降

6.4.1 定义自然梯度

6.4.2 自然梯度下降的解释

6.4.3 自然梯度下降的优点

6.4.4 近似自然梯度

6.4.5 指数族的自然梯度

6.5 边界优化算法

6.5.1 通用算法

6.5.2 示例：逻辑回归

6.5.3 期望最大化算法

6.5.4 示例：缺失数据多元正态分布的期望最大化算法

6.5.5 示例：使用学生似然的稳健线性回归

6.5.6 期望最大化算法的扩展

6.6 贝叶斯优化方法

6.6.1 基于序列模型的优化

6.6.2 代理函数

6.6.3 采集函数

6.6.4 其他问题

6.7 无导数优化

6.7.1 本地搜索

6.7.2 模拟退火

6.7.3 进化算法

6.7.4 分布估计算法

6.7.5 交叉熵方法

6.7.6 进化策略

6.8 最优传输

6.8.1 预热：最优匹配两个点族

6.8.2 从最优匹配到Kantorovich和Monge公式

6.8.3 求解最优传输

6.9 子模优化

6.9.1 直觉、示例和背景

6.9.2 子模的基本定义

6.9.3 子模函数示例

6.9.4 子模优化方法

6.9.5 子模在机器学习和人工智能中的应用

6.9.6 草图、核心集、蒸馏、数据子集和特征选择

6.9.7 组合信息函数

6.9.8 聚类、数据划分和并行机器学习

6.9.9 主动学习和半监督学习

6.9.10 概率建模

6.9.11 结构化范数和损失函数

6.9.12 结论

第二部分推理

第7章推理算法：综述

7.1 概述

7.2 常见推理模式

7.2.1 全局潜在变量

7.2.2 局部潜在变量

7.2.3 局部和全局潜在变量

7.3 精确推理算法

7.4 近似推理算法

7.4.1 最大后验估计近似及其问题

7.4.2 网格近似

7.4.3 拉普拉斯（二次型）近似

7.4.4 变分推理

7.4.5 马尔可夫链蒙特卡罗

7.4.6 序列蒙特卡罗

7.4.7 挑战后验概率

7.5 评估近似推理算法

第8章高斯滤波与平滑

8.1 概述

8.1.1 推理目标

8.1.2 贝叶斯滤波方程

8.1.3 贝叶斯平滑方程

8.1.4 高斯假设

8.2 线性高斯状态空间模型的推理

8.2.1 示例

8.2.2 卡尔曼滤波器

8.2.3 卡尔曼平滑器

8.2.4 信息形式的滤波和平滑

8.3 基于局部线性化的推理

8.3.1 泰勒级数展开

8.3.2 扩展卡尔曼滤波器

8.3.3 扩展卡尔曼平滑器

8.4 基于无迹变换的推理

8.4.1 无迹变换

8.4.2 无迹卡尔曼滤波器

8.4.3 无迹卡尔曼平滑器

8.5 卡尔曼滤波器的其他变体

8.5.1 广义高斯滤波

8.5.2 条件矩高斯滤波

8.5.3 迭代滤波器和平滑器

8.5.4 集成卡尔曼滤波器

8.5.5 鲁棒卡尔曼滤波器

8.5.6 双扩展卡尔曼滤波器

8.6 假设密度滤波

8.6.1 与高斯滤波的连接

8.6.2 切换线性动力系统的假设密度滤波（“高斯和”滤波器）

8.6.3 在线逻辑回归的假设密度滤波

8.6.4 在线深度神经网络的假设密度滤波

8.7 状态空间模型的其他推理方法

8.7.1 基于网格的近似

8.7.2 期望传播

8.7.3 变分推理

8.7.4 马尔可夫链蒙特卡罗

8.7.5 粒子滤波

第9章消息传递算法

9.1 概述

9.2 链上的信念传播

9.2.1 隐马尔可夫模型

9.2.2 前向算法

9.2.3 “前向-后向”算法

9.2.4 前向滤波后向平滑

9.2.5 时间复杂度和空间复杂度

9.2.6 Viterbi算法

9.2.7 前向滤波后向采样

9.3 树上的信念传播

9.3.1 有向树与无向树

9.3.2 和-积算法

9.3.3 最大-乘积算法

9.4 循环信念传播

9.4.1 成对无向图的循环信念传播

9.4.2 因子图的循环信念传播

9.4.3 高斯信念传播

9.4.4 收敛

9.4.5 准确率

9.4.6 广义信念传播

9.4.7 凸信念传播

9.4.8 应用：纠错码

9.4.9 应用：近邻传播

9.4.10 使用图神经网络模拟信念传播

9.5 变量消除算法

9.5.1 算法的推导

9.5.2 变量消除的计算复杂度

9.5.3 选择一个好的消除顺序

9.5.4 精确推理的计算复杂度

9.5.5 变量消除的缺点

9.6 联结树算法

9.7 作为优化的推理

9.7.1 作为反向传播的推理

9.7.2 扰动和最大后验估计

第10章变分推理

10.1 概述

10.1.1 变分目标

10.1.2 变分后验的形式

10.1.3 使用变分期望最大化的参数估计

10.1.4 随机变分推理

10.1.5 摊销变分推理

10.1.6 半摊销推理

10.2 基于梯度的变分推理

10.2.1 重新参数化变分推理

10.2.2 自动微分变分推理

10.2.3 黑盒变分推理

10.3 坐标上升变分推理

10.3.1 坐标上升变分推理算法的推导

10.3.2 示例：lsing模型的坐标上升变分推理

10.3.3 变分贝叶斯

10.3.4 示例：变分贝叶斯用于单变量高斯

10.3.5 变分贝叶斯期望最大化

10.3.6 示例：高斯混合模型的变分贝叶斯期望最大化

10.3.7 变分消息传递

10.3.8 autoconj

10.4 更准确的变分后验

10.4.1 结构化均值场

10.4.2 层次（辅助变量）后验

10.4.3 归一化流后验

10.4.4 隐式后验

10.4.5 将变分推理与马尔可夫链蒙特卡罗推理相结合

10.5 更严格的下界

10.5.1 多样本证据下界

10.5.2 热力学变分目标

10.5.3 最小化证据上界

10.6 唤醒-睡眠算法

10.6.1 “唤醒”阶段

10.6.2 “睡眠”阶段

10.6.3 “白日梦”阶段

10.6.4 算法总结

10.7 期望传播

10.7.1 期望传播的算法

10.7.2 示例

10.7.3 作为广义假设密度滤波的期望传播

10.7.4 优化问题

10.7.5 幂期望传播和阿尔法散度

10.7.6 随机期望传播

第11章蒙特卡罗方法

11.1 概述

11.2 蒙特卡罗积分

11.2.1 示例：通过蒙特卡罗积分估计π

11.2.2 蒙特卡罗积分的准确度

11.3 从简单分布生成随机样本

11.3.1 使用反向累积分布函数进行采样

11.3.2 高斯采样（Box-Muller法）

11.4 拒绝采样

11.4.1 基本思想

11.4.2 示例

11.4.3 自适应拒绝采样

11.4.4 高维空间中的拒绝采样

11.5 重要性采样

11.5.1 直接重要性采样

11.5.2 自归一化重要性采样

11.5.3 选择提议分布

11.5.4 退火重要性采样

11.6 控制蒙特卡罗方差

11.6.1 常见随机数

11.6.2 Rao-Blackwellization

11.6.3 控制变量法

11.6.4 对偶采样

11.6.5 准蒙特卡罗

第12章马尔可夫链蒙特卡罗方法

12.1 概述

12.2 Metropolis-Hastings算法

12.2.1 基本思想

12.2.2 Metropolis-Hastings算法为什么有效

12.2.3 提议分布

12.2.4 初始化

12.3 吉布斯采样

12.3.1 基本思想

12.3.2 吉布斯采样是Metropolis-Hastings的一种特殊情况

12.3.3 示例：lsing模型的吉布斯采样

12.3.4 示例：Potts模型的吉布斯采样

12.3.5 示例：高斯混合模型的吉布斯采样

12.3.6 吉布斯采样中的Metropolis算法

12.3.7 分块吉布斯采样

12.3.8 塌陷吉布斯采样

12.4 辅助变量马尔可夫链蒙特卡罗方法

12.4.1 切片采样

12.4.2 Swendsen-Wang

12.5 哈密尔顿蒙特卡罗方法

12.5.1 哈密尔顿力学

12.5.2 积分哈密尔顿方程

12.5.3 哈密尔顿蒙特卡罗算法

12.5.4 微调哈密尔顿蒙特卡罗方法

12.5.5 黎曼流形哈密尔顿蒙特卡罗方法

12.5.6 朗之万蒙特卡罗方法

12.5.7 随机梯度下降和朗之万采样之间的联系

12.5.8 将哈密尔顿蒙特卡罗方法应用于受约束的参数

12.5.9 加速哈密尔顿蒙特卡罗方法

12.6 马尔可夫链蒙特卡罗收敛

12.6.1 马尔可夫链的混合率

12.6.2 实用收敛诊断

12.6.3 有效样本容量

12.6.4 提高收敛速度

12.6.5 非中心参数化和Neal漏斗

12.7 随机梯度马尔可夫链蒙特卡罗方法

12.7.1 随机梯度朗之万动力学

12.7.2 预处理

12.7.3 降低梯度估计的方差

12.7.4 SG-HMC

12.7.5 欠阻尼朗之万动力学

12.8 可逆跳跃（跨维）马尔可夫链蒙特卡罗

12.8.1 基本思想

12.8.2 示例

12.8.3 讨论

12.9 退火方法

12.9.1 模拟退火

12.9.2 并行回火

第13章序列蒙特卡罗方法

13.1 概述

13.1.1 问题陈述

13.1.2 状态空间模型的粒子滤波

13.1.3 用于静态参数估计的序列蒙特卡罗采样器

13.2 粒子滤波

13.2.1 重要性采样

13.2.2 序列重要性采样

13.2.3 带重新采样的序列重要性采样

13.2.4 重新采样方法

13.2.5 自适应重新采样

13.3 提议分布

13.3.1 局部最优提议分布

13.3.2 基于扩展无迹卡尔曼滤波器的提议分布

13.3.3 基于拉普拉斯近似的提议分布

13.3.4 基于序列蒙特卡罗的提议分布（嵌套序列蒙特卡罗）

13.4 Rao-Blackwellized粒子滤波

13.4.1 卡尔曼滤波器的混合

13.4.2 示例：跟踪机动物体

13.4.3 示例：FastSLAM

13.5 粒子滤波器的扩展

13.6 序列蒙特卡罗采样器

13.6.1 序列蒙特卡罗采样器的成分

13.6.2 似然回火（几何路径）

13.6.3 数据回火

13.6.4 罕见事件和极值的采样

13.6.5 序列蒙特卡罗-近似贝叶斯计算和无似然推理

13.6.6 SMC^2

13.6.7 变分滤波序列蒙特卡罗方法

13.6.8 变分平滑序列蒙特卡罗方法

第三部分预测

第14章预测模型：概述

14.1 概述

14.1.1 预测模型的类型

14.1.2 使用ERM、MLE和MAP的模型拟合

14.1.3 使用贝叶斯、变分推理和广义贝叶斯的模型拟合

14.2 评估预测模型

14.2.1 适当的评分规则

14.2.2 校准

14.2.3 评估边缘概率以外的其他方法

14.3 共形预测

14.3.1 共形分类

14.3.2 共形回归

第15章广义线性模型

15.1 概述

15.1.1 一些流行的广义线性模型

15.1.2 具有非规范链接函数的广义线性模型

15.1.3 最大似然估计

15.1.4 贝叶斯推理

15.2 线性回归

15.2.1 普通最小二乘法

15.2.2 共轭先验

15.2.3 无信息性先验

15.2.4 信息先验

15.2.5 “尖峰和平板”先验

15.2.6 拉普拉斯先验（贝叶斯套索）

15.2.7 “马蹄”先验

15.2.8 自动相关性确定

15.2.9 多元线性回归

15.3 逻辑回归

15.3.1 二元逻辑回归

15.3.2 多项式逻辑回归

15.3.3 处理类别不平衡和长尾问题

15.3.4 参数先验分布

15.3.5 后验的拉普拉斯近似

15.3.6 近似后验预测分布

15.3.7 马尔可夫链蒙特卡罗推理

15.3.8 其他近似推理方法

15.3.9 案例研究：伯克利分校的录取是否对女性有偏见

15.4 probit回归

15.4.1 潜在变量解释

15.4.2 最大似然估计

15.4.3 贝叶斯推理

15.4.4 有序probit回归

15.4.5 多项式probit模型

15.5 多级（分层）广义线性模型

15.5.1 广义线性混合模型

15.5.2 示例：氡回归

第16章深度神经网络

16.1 概述

16.2 可微电路的构建块

16.2.1 线性层

16.2.2 非线性现象

16.2.3 卷积层

16.2.4 残差（跳过）连接

16.2.5 归一化层

16.2.6 dropout层

16.2.7 注意力层

16.2.8 循环层

16.2.9 乘法层

16.2.10 隐式层

16.3 神经网络的典型例子

16.3.1 多层感知器

16.3.2 卷积神经网络

16.3.3 自动编码器

16.3.4 循环神经网络

16.3.5 Transformer

16.3.6 图神经网络

第17章贝叶斯神经网络

17.1 概述

17.2 贝叶斯神经网络的先验

17.2.1 高斯先验

17.2.2 稀疏性提升先验

17.2.3 学习先验

17.2.4 函数空间中的先验

17.2.5 架构先验

17.3 贝叶斯神经网络的后验

17.3.1 蒙特卡罗丢弃法

17.3.2 拉普拉斯近似

17.3.3 变分推理

17.3.4 期望传播

17.3.5 最后一层方法

17.3.6 频谱归一化高斯过程

17.3.7 马尔可夫链蒙特卡罗方法

17.3.8 基于随机梯度下降轨迹的方法

17.3.9 深度集成

17.3.10 近似后验预测分布

17.3.11 回火后验和冷却后验

17.4 贝叶斯深度学习中的泛化

17.4.1 尖锐与平坦的极小值

17.4.2 模式连通性和损失景观

17.4.3 模型的有效维度

17.4.4 深度神经网络的假设空间

17.4.5 PAC贝叶斯

17.4.6 贝叶斯神经网络的分布外泛化

17.4.7 贝叶斯神经网络的模型选择

17.5 在线推理

17.5.1 深度神经网络的序列拉普拉斯

17.5.2 深度神经网络的扩展卡尔曼滤波

17.5.3 深度神经网络的假设密度过滤

17.5.4 深度神经网络的在线变分推理

17.6 层次贝叶斯神经网络

17.6.1 示例：多卫星分类

第18章高斯过程

18.1 概述

18.1.1 高斯过程的概念以及使用的原因

18.2 Mercer核

18.2.1 平稳核

18.2.2 非平稳核

18.2.3 非向量（结构化）输入的核

18.2.4 从旧核中创建新核

18.2.5 Mercer定理

18.2.6 具有随机特征的近似核

18.3 高斯似然的高斯过程

18.3.1 使用无噪声观测的预测

18.3.2 使用噪声观测的预测

18.3.3 权重空间与函数空间

18.3.4 半参数化高斯过程

18.3.5 边缘似然

18.3.6 计算和数值问题

18.3.7 核岭回归

18.4 具有非高斯似然的高斯过程

18.4.1 二元分类

18.4.2 多类别分类

18.4.3 泊松回归的高斯过程（Cox过程）

18.4.4 其他似然

18.5 将高斯过程推理扩展到大型数据集

18.5.1 数据子集

18.5.2 Nyström近似

18.5.3 诱导点方法

18.5.4 稀疏变分法

18.5.5 通过核矩阵乘法利用并行化和结构

18.5.6 将高斯过程转换为状态空间模型

18.6 学习核

18.6.1 核参数的经验贝叶斯

18.6.2 核参数的贝叶斯推断

18.6.3 加性核的多核学习

18.6.4 组成核的自动搜索

18.6.5 谱混合核学习

18.6.6 深度核学习

18.7 高斯过程和深度神经网络

18.7.1 源自无限宽深度神经网络的核

18.7.2 神经正切核

18.7.3 深度高斯过程

18.8 时间序列预测的高斯过程

18.8.1 示例：MaunaLoa

第19章非独立同分布的假设

19.1 概述

19.2 分布偏移

19.2.1 激励示例

19.2.2 分布偏移的因果观

19.2.3 分布偏移的4种主要类型

19.2.4 选择偏差

19.3 检测分布偏移

19.3.1 使用双样本检验来检测偏移

19.3.2 检测单个分布外输入

19.3.3 选择性预测

19.3.4 开放集识别和开放世界识别

19.4 分布偏移的鲁棒性

19.4.1 数据增强

19.4.2 分布式鲁棒优化

19.5 适应分布偏移

19.5.1 使用迁移学习的监督适应

19.5.2 协变量偏移的加权经验风险最小化

19.5.3 协变量偏移的无监督领域自适应

19.5.4 标签偏移的无监督技术

19.5.5 测试时自适应

19.6 从多种分布中学习

19.6.1 多任务学习

19.6.2 领域泛化

19.6.3 不变风险最小化

19.6.4 元学习

19.7 持续学习

19.7.1 领域漂移

19.7.2 概念漂移

19.7.3 任务增量学习

19.7.4 灾难性遗忘

19.7.5 在线学习

19.8 对抗性样例

19.8.1 白盒（基于梯度的）攻击

19.8.2 黑盒（无梯度）攻击

19.8.3 真实世界的对抗性攻击

19.8.4 基于鲁棒优化的防御

19.8.5 为什么模型具有对抗性样例

第四部分生成

第20章生成模型：概述

20.1 概述

20.2 生成模型的类型

20.3 生成式建模的目标

20.3.1 生成数据

20.3.2 密度估计

20.3.3 插值

20.3.4 结构发现

20.3.5 潜在空间插值

20.3.6 潜在空间算术运算

20.3.7 生成式设计

20.3.8 基于模型的强化学习

20.3.9 表征学习

20.3.10 数据压缩

20.4 评估生成模型

20.4.1 基于似然的评估

20.4.2 特征空间中的距离和离散度

20.4.3 精度和召回率指标

20.4.4 统计测试

20.4.5 使用预训练分类器的挑战

20.4.6 使用模型样本训练分类器

20.4.7 评估过拟合

20.4.8 人工评估

第21章变分自动编码器

21.1 概述

21.2 变分自动编码器的基础知识

21.2.1 建模假设

21.2.2 模型拟合

21.2.3 变分自动编码器和自动编码器的比较

21.2.4 变分自动编码器在增强空间中优化

21.3 变分自动编码器泛化

21.3.1 β-变分自动编码器

21.3.2 InfoVAE

21.3.3 多模态变分自动编码器

21.3.4 半监督变分自动编码器

21.3.5 带序列编码器/解码器的变分自动编码器

21.4 避免后验塌陷

21.4.1 KL退火

21.4.2 限制速率下界

21.4.3 免费比特

21.4.4 添加跳跃连接

21.4.5 改进的变分推理

21.4.6 替代目标

21.5 具有层次结构的变分自动编码器

21.5.1 自底向上的推理和自顶向下的推理

21.5.2 示例：超级深度变分自动编码器

21.5.3 与自回归模型的联系

21.5.4 变分剪枝

21.5.5 关于优化的其他难点

21.6 向量量化变分自动编码器

21.6.1 带二元编码的自动编码器

21.6.2 VQ-VAE模型

21.6.3 学习先验知识

21.6.4 层次扩展（VQ-VAE-2）

21.6.5 离散变分自动编码器

21.6.6 VQ-GAN

第22章自回归模型

22.1 概述

22.2 神经自回归密度估计器

22.3 因果卷积神经网络

22.3.1 一维因果卷积神经网络

22.3.2 二维因果卷积神经网络

22.4 Transformer

22.4.1 文本生成

22.4.2 图像生成

22.4.3 其他应用

第23章归一化流

23.1 概述

23.1.1 准备工作

23.1.2 如何训练流模型

23.2 构造流

23.2.1 仿射流

23.2.2 逐元素流

23.2.3 耦合流

23.2.4 自回归流

23.2.5 残差流

23.2.6 连续时间流

23.3 应用

23.3.1 密度估算

23.3.2 生成式建模

23.3.3 推理

第24章基于能量的模型

24.1 概述

24.1.1 示例：专家乘积

24.1.2 计算困难

24.2 最大似然训练

24.2.1 基于梯度的马尔可夫链蒙特卡罗方法

24.2.2 对比散度

24.3 得分匹配

24.3.1 基本得分匹配

24.3.2 去噪得分匹配

24.3.3 切片得分匹配

24.3.4 与对比散度的联系

24.3.5 基于得分的生成模型

24.4 噪声对比估计

24.4.1 与得分匹配的联系

24.5 其他方法

24.5.1 最小化KL散度的差异/导数

24.5.2 最小化Stein差异

24.5.3 对抗性训练

第25章扩散模型

25.1 概述

25.2 去噪扩散概率模型

25.2.1 编码器（前向扩散）

25.2.2 解码器（反向扩散）

25.2.3 模型拟合

25.2.4 学习噪声调度计划

25.2.5 示例：图像生成

25.3 基于得分的生成模型

25.3.1 示例

25.3.2 在多个尺度上添加噪声

25.3.3 等同于去噪扩散概率模型

25.4 使用微分方程的连续时间模型

25.4.1 前向扩散随机微分方程

25.4.2 前向扩散常微分方程

25.4.3 反向扩散随机微分方程

25.4.4 反向扩散常微分方程

25.4.5 随机微分方程和常微分方程方法的比较

25.4.6 示例

25.5 加速扩散模型

25.5.1 DDIM采样器

25.5.2 非高斯解码器网络

25.5.3 蒸馏方法

25.5.4 潜在空间扩散

25.6 条件生成

25.6.1 条件扩散模型

25.6.2 分类器引导

25.6.3 无分类器引导

25.6.4 生成高分辨率图像

25.7 离散状态空间的扩散

25.7.1 离散去噪扩散概率模型

25.7.2 前向过程的马尔可夫转移矩阵的选择

25.7.3 反向过程的参数化

25.7.4 噪声调度计划

25.7.5 离散序列与其他概率模型的联系

第26章生成式对抗性网络

26.1 概述

26.2 通过比较进行学习

26.2.1 指导原则

26.2.2 使用二元分类器的密度比估计

26.2.3 f-散度的边界

26.2.4 积分概率度量

26.2.5 矩匹配

26.2.6 关于密度比和密度差异

26.3 生成式对抗性网络的训练与优化

26.3.1 从学习原理到损失函数

26.3.2 梯度下降

26.3.3 生成式对抗性网络训练面临的挑战

26.3.4 改进生成式对抗性网络优化

26.3.5 生成式对抗性网络训练的收敛性

26.4 条件生成式对抗性网络

26.5 生成式对抗性网络推理

26.6 生成式对抗性网络中的神经架构

26.6.1 判别器架构的重要性

26.6.2 架构归纳偏置

26.6.3 生成式对抗性网络中的注意力

26.6.4 渐进式生成

26.6.5 正则化

26.6.6 扩展生成式对抗性网络模型

26.7 应用

26.7.1 图像生成的生成式对抗性网络

26.7.2 视频生成

26.7.3 音频生成

26.7.4 文本生成

26.7.5 模仿学习

26.7.6 领域自适应

26.7.7 设计、艺术和创意

第五部分发现

第27章发现方法：概述

27.1 概述

27.2 第五部分的内容概述

第28章潜在因子模型

28.1 概述

28.2 混合模型

28.2.1 高斯混合模型

28.2.2 伯努利混合模型

28.2.3 高斯尺度混合模型

28.2.4 使用高斯混合模型作为逆成像问题的先验

28.2.5 使用混合模型解决分类问题

28.3 因子分析

28.3.1 因子分析：基础

28.3.2 概率主成分分析

28.3.3 混合因子分析器

28.3.4 成对数据的因子分析模型

28.3.5 指数族似然的因子分析

28.3.6 深度神经网络似然的因子分析

28.3.7 高斯过程似然的因子分析

28.4 具有非高斯先验的潜在因子模型

28.4.1 非负矩阵分解

28.4.2 多元主成分分析

28.5 主题模型

28.5.1 潜在狄利克雷分布

28.5.2 相关主题模型

28.5.3 动态主题模型

28.5.4 LDA-HMM

28.6 独立成分分析

28.6.1 无噪声独立成分分析模型

28.6.2 对非高斯先验的需求

28.6.3 最大似然估计

28.6.4 最大似然估计的替代方案

28.6.5 稀疏编码

28.6.6 非线性独立成分分析

第29章状态空间模型

29.1 概述

29.2 隐马尔可夫模型

29.2.1 条件独立性

29.2.2 状态转移模型

29.2.3 离散似然

29.2.4 高斯似然

29.2.5 自回归似然

29.2.6 神经网络似然

29.3 隐马尔可夫模型：应用

29.3.1 时间序列分割

29.3.2 蛋白质序列比对

29.3.3 拼写校正

29.4 隐马尔可夫模型：参数学习

29.4.1 Baum-Welch算法

29.4.2 使用随机梯度下降的参数估计

29.4.3 使用谱方法的参数估计

29.4.4 贝叶斯隐马尔可夫模型

29.5 隐马尔可夫模型：泛化

29.5.1 隐半马尔可夫模型

29.5.2 层次化隐马尔可夫模型

29.5.3 因子化隐马尔可夫模型

29.5.4 耦合隐马尔可夫模型

29.5.5 动态贝叶斯网络

29.5.6 变化点检测

29.6 线性动力系统

29.6.1 条件独立性

29.6.2 参数化

29.7 线性动力系统：应用

29.7.1 目标跟踪和状态估计

29.7.2 在线贝叶斯线性回归

29.7.3 自适应滤波

29.7.4 时间序列预测

29.8 线性动力系统：参数学习

29.8.1 线性动力系统中的期望最大化

29.8.2 子空间识别方法

29.8.3 确保动力系统的稳定性

29.8.4 贝叶斯线性动力系统

29.9 切换线性动力系统

29.9.1 参数化

29.9.2 后验推理

29.9.3 应用：多目标跟踪

29.10 非线性状态空间模型

29.10.1 示例：目标跟踪和状态估计

29.10.2 后验推理

29.11 非高斯状态空间模型

29.11.1 示例：“尖峰”序列建模

29.11.2 示例：随机波动率模型

29.11.3 后验推理

29.12 结构时间序列模型

29.12.1 概述

29.12.2 结构化构建块

29.12.3 模型拟合

29.12.4 预测

29.12.5 示例

29.12.6 时间序列干预的因果影响

29.12.7 Prophet

29.12.8 神经预测方法

29.13 深度状态空间模型

29.13.1 深度马尔可夫模型

29.13.2 循环状态空间模型

29.13.3 改进多步骤预测

29.13.4 变分循环神经网络

第30章图学习

30.1 概述

30.2 图的潜在变量模型

30.3 图模型结构学习

第31章非参数化贝叶斯模型

31.1 概述

第32章表征学习

32.1 概述

32.2 评估和比较学习到的表征

32.2.1 下游性能

32.2.2 表征相似性

32.3 学习表征的方法

32.3.1 监督的表征学习和迁移

32.3.2 生成式表征学习

32.3.3 自监督的表征学习

32.3.4 多视图表征学习

32.4 表征学习的理论

32.4.1 可识别性

32.4.2 信息最大化

第33章可解释性

33.1 概述

33.1.1 可解释性的作用：未知规范和弱规范

33.1.2 术语和框架

33.2 可解释的机器学习方法

33.2.1 内在可解释的模型：模型就是其解释

33.2.2 半内在可解释的模型：基于样例的方法

33.2.3 事后训练或联合训练：解释给出模型的部分视图

33.2.4 透明度和可视化

33.3 属性：上下文和方法之间的抽象

33.3.1 可解释机器学习中解释的属性

33.3.2 认知科学中解释的属性

33.4 可解释机器学习模型的评估

33.4.1 计算评估：该方法是否具有所需的属性

33.4.2 基于用户研究的评估：该方法是否有助于用户执行目标任务

33.5 讨论：如何思考可解释的机器学习

第六部分行为

第34章不确定性决策

34.1 统计决策理论

34.1.1 基础理论

34.1.2 频率学派决策理论

34.1.3 贝叶斯决策理论

34.1.4 贝叶斯方法的频率学派最优性

34.1.5 一次性决策问题示例

34.2 决策（影响）图

34.2.1 示例：石油勘探者

34.2.2 信息弧

34.2.3 信息价值

34.2.4 计算最优策略

34.3 A/B测试

34.3.1 贝叶斯方法

34.3.2 示例

34.4 上下文游戏机

34.4.1 游戏机的类型

34.4.2 应用

34.4.3 “探索-利用”权衡

34.4.4 最优解

34.4.5 置信区间上界

34.4.6 汤普森采样

34.4.7 策略遗憾

34.5 马尔可夫决策问题

34.5.1 基础理论

34.5.2 部分可观测的马尔可夫决策过程

34.5.3 剧集和回报

34.5.4 价值函数

34.5.5 最优价值函数和策略

34.6 马尔可夫决策过程中的规划

34.6.1 价值迭代

34.6.2 策略迭代

34.6.3 线性规划

34.7 主动学习

34.7.1 主动学习场景

34.7.2 与其他形式的序列决策的关系

34.7.3 采集策略

34.7.4 批量主动学习

第35章强化学习

35.1 概述

35.1.1 方法概述

35.1.2 基于价值的方法

35.1.3 策略搜索方法

35.1.4 基于模型的强化学习

35.1.5 “探索-利用”权衡

35.2 基于价值的强化学习

35.2.1 蒙特卡罗强化学习

35.2.2 时间差分学习

35.2.3 资格迹的时间差分学习

35.2.4 SARSA：同策略时间差分控制

35.2.5 Q-学习：异策略时间差分控制

35.2.6 深度Q-网络

35.3 基于策略的强化学习

35.3.1 策略梯度定理

35.3.2 REINFORCE

35.3.3 “行动者-评论家”方法

35.3.4 边界优化方法

35.3.5 确定性策略梯度方法

35.3.6 无梯度方法

35.4 基于模型的强化学习

35.4.1 模型预测控制

35.4.2 结合基于模型和无模型的强化学习

35.4.3 使用高斯过程的基于模型的强化学习

35.4.4 使用深度神经网络的基于模型的强化学习

35.4.5 使用潜在变量模型的基于模型的强化学习

35.4.6 模型误差的鲁棒性

35.5 异策略学习

35.5.1 基本技术

35.5.2 时域的诅咒

35.5.3 致命的三要素

35.6 作为推理的控制

35.6.1 最大熵强化学习

35.6.2 其他方法

35.6.3 模仿学习

第36章因果关系

36.1 概述

36.2 因果形式主义

36.2.1 结构因果模型

36.2.2 因果有向无环图

36.2.3 识别

36.2.4 反事实和因果层次

36.3 随机对照试验

36.4 混杂因素调整

36.4.1 因果估计目标、统计估计目标和识别

36.4.2 具有观测到的混杂因素情况下的平均处理效应估计

36.4.3 不确定性量化

36.4.4 匹配

36.4.5 实际考虑和过程

36.4.6 总结和实用建议

36.5 仪器变量策略

36.5.1 加性未观测到的混杂因素

36.5.2 仪器单调性和局部平均处理效应

36.5.3 两阶段最小二乘法

36.6 双重差分法

36.6.1 估计

36.7 可信度检查

36.7.1 安慰剂检查

36.7.2 对未观测到的混杂因素进行敏感性分析

36.8 do演算

36.8.1 三条规则

36.8.2 重新调整后门

36.8.3 前门调整

36.9 参考阅读资料

参考文献

DeepSeek硬核技术解读￥59.00

刘丹;尹俊希;杨院伶

￥59.00

豆包*学习:AI 辅助中小学生学习的方法与技巧￥47.00

薛碧芸;郭泽德

￥47.00

精通Excel数据统计与分析￥57.54

李宗璋著

￥57.54

更多同类图书 >

概率机器学习(进阶篇)电子书

支持设备

豆包使用秘笈:从入门到精通的100个实用技巧￥53.00

豆包从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥47.00

千问从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥35.00

学会提问,驾驭AI:提示词从入门到精通￥61.60

腾讯元宝使用秘笈:从入门到精通的100个实用技巧￥53.00

DeepSeek应用大全:从入门到精通的*案例解析￥54.60