万本电子书0元读

万本电子书0元读

顶部广告

决策算法电子书

本书源于斯坦福大学的课程“不确定性状态下的决策”,主要介绍不确定状态下的决策算法,涵盖基本的数学问题和求解算法。本书主要关注规划和强化学习,其中一些技术涉及监督学习和优化。书中的算法是用Julia编程语言实现的,并配有大量图表、示例和练习题。

售       价:¥

纸质售价:¥104.30购买纸书

78人正在读 | 0人评论 6.8

作       者:(美)米凯尔·J· 科申德弗, (美)蒂姆·A· 惠勒, (美)凯尔·H· 雷

出  版  社:机械工业出版社

出版时间:2024-07-30

字       数:32.2万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书源于斯坦福大学的相关课程,主要介绍不确定状态下的决策算法,涵盖基本的数学问题和求解算法。本书共分为五个部分:首先解决在单个时间上简单决策的不确定性和目标的推理问题;然后介绍随机环境中的序列决策问题;着讨论模型不确定性,包括基于模型的方法和无模型的方法;之后讨论状态不确定性,包括jing确信念状态规划、离线信念状态规划、在线信念状态规划等;zui后讨论多智能体系统,涉及多智能体推理和协作智能体等。本书主要关注规划和强化学习,其中一些技术涉及监督学习和优化。书中的算法是用Julia编程语言实现的,并配有大量图表、示例和练习题。本书要求读者具备扎实的数学基础,适合计算机科学、数学、统计学、电气工程、航空航天等领域的读者阅读。<br/>【推荐语】<br/>本书源于斯坦福大学的课程“不确定性状态下的决策”,主要介绍不确定状态下的决策算法,涵盖基本的数学问题和求解算法。本书主要关注规划和强化学习,其中一些技术涉及监督学习和优化。书中的算法是用Julia编程语言实现的,并配有大量图表、示例和练习题。<br/>【作者】<br/>米凯尔·J. 科申德弗 (Mykel J. Kochenderfer) 斯坦福大学航空航天系和计算机科学系副教授,智能系统实验室(SISL)主任。曾任职于麻省理工学院林肯实验室。目前主要研究用于设计鲁棒决策系统的算法和分析方法。他拥有爱丁堡大学博士学位。 蒂姆·A. 惠勒 (Tim A. Wheeler) 软件工程师,主要从事自动驾驶、控制和决策系统方面的研发工作。他拥有斯坦福大学博士学位。 凯尔·H. 雷 (Kyle H. Wray) Robust AI 公司工程总监,曾任硅谷创新联盟实验室首席研究员,目前主要从事自主机器人的研发工作,致力于设计和实现机器人决策系统。他拥有马萨诸塞大学阿默斯特分校博士学位。<br/>
目录展开

前折页

书名页

译者序

前言

致谢

第1章 导论

1.1 决策

1.2 应用

1.2.1 飞机防撞控制系统

1.2.2 自动驾驶控制系统

1.2.3 乳腺癌筛查

1.2.4 金融消费与投资组合配置

1.2.5 分布式森林火灾监控系统

1.2.6 火星科学探测

1.3 方法

1.3.1 显式编程

1.3.2 监督式学习

1.3.3 优化

1.3.4 规划

1.3.5 强化学习

1.4 自动化决策过程的历史

1.4.1 经济学

1.4.2 心理学

1.4.3 神经科学

1.4.4 计算机科学

1.4.5 工程

1.4.6 数学

1.4.7 运筹学

1.5 社会影响

1.6 本书组织结构

1.6.1 概率推理

1.6.2 序列问题

1.6.3 模型不确定性

1.6.4 状态不确定性

1.6.5 多智能体系统

第一部分 概率推理

第2章 表示

2.1 信念度和概率

2.2 概率分布

2.2.1 离散概率分布

2.2.2 连续概率分布

2.3 联合分布

2.3.1 离散联合分布

2.3.2 连续联合分配

2.4 条件分布

2.4.1 离散条件模型

2.4.2 条件高斯模型

2.4.3 线性高斯模型

2.4.4 条件线性高斯模型

2.4.5 sigmoid模型

2.4.6 确定性变量

2.5 贝叶斯网络

2.6 条件独立性

2.7 本章小结

2.8 练习题

第3章 推理

3.1 贝叶斯网络中的推理

3.2 朴素贝叶斯模型中的推理

3.3 “和-积”变量消除

3.4 信念传播

3.5 计算复杂度

3.6 直接抽样

3.7 似然加权抽样

3.8 吉布斯抽样

3.9 高斯模型中的推理

3.10 本章小结

3.11 练习题

第4章 参数学习

4.1 最大似然参数学习

4.1.1 类别分布的最大似然估计

4.1.2 高斯分布的最大似然估计

4.1.3 贝叶斯网络的最大似然估计

4.2 贝叶斯参数学习

4.2.1 二元分布的贝叶斯学习

4.2.2 类别分布的贝叶斯学习

4.2.3 贝叶斯网络的贝叶斯学习

4.3 非参数学习

4.4 缺失数据的学习

4.4.1 数据插值

4.4.2 期望最大化

4.5 本章小结

4.6 练习题

第5章 结构学习

5.1 贝叶斯网络评分

5.2 有向图搜索

5.3 马尔可夫等价类

5.4 部分有向图搜索

5.5 本章小结

5.6 练习题

第6章 简单决策

6.1 理性偏好上的约束

6.2 效用函数

6.3 效用诱导

6.4 最大期望效用原则

6.5 决策网络

6.6 信息价值

6.7 非理性

6.8 本章小结

6.9 练习题

第二部分 序列问题

第7章 精确求解方法

7.1 马尔可夫决策过程

7.2 策略评估

7.3 值函数策略

7.4 策略迭代

7.5 值迭代

7.6 异步值迭代

7.7 线性规划方程

7.8 具有二次型奖励的线性系统

7.9 本章小结

7.10 练习题

第8章 近似值函数

8.1 参数化表示

8.2 最近邻

8.3 核平滑

8.4 线性插值

8.5 单纯形插值

8.6 线性回归

8.7 神经网络回归

8.8 本章小结

8.9 练习题

第9章 在线规划

9.1 滚动时域规划

9.2 基于预演的前瞻算法

9.3 正向搜索

9.4 分支定界法

9.5 稀疏抽样

9.6 蒙特卡罗树搜索

9.7 启发式搜索

9.8 标记启发式搜索

9.9 开环规划

9.9.1 确定性模型预测控制

9.9.2 鲁棒模型预测控制

9.9.3 多重预测模型预测控制

9.10 本章小结

9.11 练习题

第10章 策略搜索

10.1 近似策略评估

10.2 局部搜索

10.3 遗传算法

10.4 交叉熵方法

10.5 进化策略

10.6 各向同性进化策略

10.7 本章小结

10.8 练习题

第11章 策略梯度值的估算

11.1 有限差分

11.2 回归梯度

11.3 似然比

11.4 “之后的奖励”方法

11.5 基线扣除法

11.6 本章小结

11.7 练习题

第12章 策略梯度的优化

12.1 梯度上升更新

12.2 带约束条件的梯度更新

12.3 自然梯度更新

12.4 信任区域更新

12.5 剪裁代理目标

12.6 本章小结

12.7 练习题

第13章 “行为者-评论家”方法

13.1 “行为者-评论家”

13.2 广义优势估计

13.3 确定性策略梯度

13.4 蒙特卡罗树搜索的“行为者-评论家”

13.5 本章小结

13.6 练习题

第14章 策略验证

14.1 性能指标评估

14.2 罕见事件模拟

14.3 鲁棒性分析

14.4 权衡分析

14.5 对抗性分析

14.6 本章小结

14.7 练习题

第三部分 模型不确定性

第15章 探索和利用

15.1 赌博机问题

15.2 贝叶斯模型估计

15.3 无向探索策略

15.4 有向探索策略

15.5 最佳探索策略

15.6 使用多个状态进行探索

15.7 本章小结

15.8 练习题

第16章 基于模型的方法

16.1 最大似然模型

16.2 更新方案

16.2.1 完整更新

16.2.2 随机更新

16.2.3 优先更新

16.3 探索策略

16.4 贝叶斯方法

16.5 贝叶斯自适应马尔可夫决策过程

16.6 后验抽样

16.7 本章小结

16.8 练习题

第17章 无模型的方法

17.1 均值的增量估计

17.2 Q-学习

17.3 Sarsa

17.4 资格迹

17.5 奖励塑形

17.6 行为值函数近似

17.7 经验回放

17.8 本章小结

17.9 练习题

第18章 模仿学习

18.1 行为克隆

18.2 数据集聚合

18.3 随机混合迭代学习

18.4 最大边际逆向强化学习

18.5 最大熵逆向强化学习

18.6 生成式对抗性模仿学习

18.7 本章小结

18.8 练习题

第四部分 状态不确定性

第19章 信念

19.1 信念初始化

19.2 离散状态滤波器

19.3 卡尔曼滤波器

19.4 扩展卡尔曼滤波器

19.5 无迹卡尔曼滤波器

19.6 粒子滤波器

19.7 粒子注入

19.8 本章小结

19.9 练习题

第20章 精确信念状态规划

20.1 信念-状态马尔可夫决策过程

20.2 条件规划

20.3 阿尔法向量

20.4 剪枝

20.5 值迭代

20.6 线性策略

20.7 本章小结

20.8 练习题

第21章 离线信念状态规划

21.1 完全可观测值的近似

21.2 快速通知界限

21.3 快速下界

21.4 基于点的值迭代

21.5 基于随机点的值迭代

21.6 锯齿上界

21.7 点选择

21.8 锯齿启发式搜索

21.9 三角化的值函数

21.10 本章小结

21.11 练习题

第22章 在线信念状态规划

22.1 具有预演的前瞻策略

22.2 正向搜索

22.3 分支定界法

22.4 稀疏抽样

22.5 蒙特卡罗树搜索

22.6 确定性稀疏树搜索

22.7 间隙启发式搜索

22.8 本章小结

22.9 练习题

第23章 控制器抽象

23.1 控制器

23.2 策略迭代

23.3 非线性规划

23.4 梯度上升

23.5 本章小结

23.6 练习题

第五部分 多智能体系统

第24章 多智能体推理

24.1 简单博弈

24.2 响应模型

24.2.1 最优响应

24.2.2 Softmax响应

24.3 主导策略均衡

24.4 纳什均衡

24.5 相关均衡

24.6 迭代式最优响应

24.7 层次化Softmax

24.8 虚构博弈

24.9 梯度上升

24.10 本章小结

24.11 练习题

第25章 序列问题

25.1 马尔可夫博弈

25.2 响应模型

25.2.1 最优响应

25.2.2 Softmax响应

25.3 纳什均衡

25.4 虚构博弈

25.5 梯度上升

25.6 纳什Q-学习

25.7 本章小结

25.8 练习题

第26章 状态不确定性

26.1 部分可观测马尔可夫博弈

26.2 策略评估

26.2.1 评估条件规划

26.2.2 评估随机控制器

26.3 纳什均衡

26.4 动态规划

26.5 本章小结

26.6 练习题

第27章 协作智能体

27.1 分散的部分可观测马尔可夫决策过程

27.2 Dec-POMDP的子类别

27.3 动态规划

27.4 迭代式最优响应

27.5 启发式搜索

27.6 非线性规划

27.7 本章小结

27.8 练习题

附录

附录A 数学概念

附录B 概率分布

附录C 计算复杂度

附录D 神经网络表示

附录E 搜索算法

附录F 决策问题

附录G Julia

参考文献

推荐阅读

后折页

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部