决策算法电子书

本书源于斯坦福大学的课程“不确定性状态下的决策”，主要介绍不确定状态下的决策算法，涵盖基本的数学问题和求解算法。本书主要关注规划和强化学习，其中一些技术涉及监督学习和优化。书中的算法是用Julia编程语言实现的，并配有大量图表、示例和练习题。

售价：¥

纸质售价：¥111.70购买纸书

147人正在读 | 0人评论

6.8

作者：(美)米凯尔·J· 科申德弗, (美)蒂姆·A· 惠勒, (美)凯尔·H· 雷

出版社：机械工业出版社

出版时间：2024-07-30

字数：32.2万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书源于斯坦福大学的相关课程，主要介绍不确定状态下的决策算法，涵盖基本的数学问题和求解算法。本书共分为五个部分：首先解决在单个时间上简单决策的不确定性和目标的推理问题；然后介绍随机环境中的序列决策问题；着讨论模型不确定性，包括基于模型的方法和无模型的方法；之后讨论状态不确定性，包括jing确信念状态规划、离线信念状态规划、在线信念状态规划等；zui后讨论多智能体系统，涉及多智能体推理和协作智能体等。本书主要关注规划和强化学习，其中一些技术涉及监督学习和优化。书中的算法是用Julia编程语言实现的，并配有大量图表、示例和练习题。本书要求读者具备扎实的数学基础，适合计算机科学、数学、统计学、电气工程、航空航天等领域的读者阅读。 【推荐语】 本书源于斯坦福大学的课程“不确定性状态下的决策”，主要介绍不确定状态下的决策算法，涵盖基本的数学问题和求解算法。本书主要关注规划和强化学习，其中一些技术涉及监督学习和优化。书中的算法是用Julia编程语言实现的，并配有大量图表、示例和练习题。 【作者】 米凯尔·J. 科申德弗（Mykel J. Kochenderfer）斯坦福大学航空航天系和计算机科学系副教授，智能系统实验室（SISL）主任。曾任职于麻省理工学院林肯实验室。目前主要研究用于设计鲁棒决策系统的算法和分析方法。他拥有爱丁堡大学博士学位。蒂姆·A. 惠勒（Tim A. Wheeler）软件工程师，主要从事自动驾驶、控制和决策系统方面的研发工作。他拥有斯坦福大学博士学位。凯尔·H. 雷（Kyle H. Wray） Robust AI 公司工程总监，曾任硅谷创新联盟实验室首席研究员，目前主要从事自主机器人的研发工作，致力于设计和实现机器人决策系统。他拥有马萨诸塞大学阿默斯特分校博士学位。

目录展开

前折页

书名页

译者序

前言

致谢

第1章导论

1.1 决策

1.2 应用

1.2.1 飞机防撞控制系统

1.2.2 自动驾驶控制系统

1.2.3 乳腺癌筛查

1.2.4 金融消费与投资组合配置

1.2.5 分布式森林火灾监控系统

1.2.6 火星科学探测

1.3 方法

1.3.1 显式编程

1.3.2 监督式学习

1.3.3 优化

1.3.4 规划

1.3.5 强化学习

1.4 自动化决策过程的历史

1.4.1 经济学

1.4.2 心理学

1.4.3 神经科学

1.4.4 计算机科学

1.4.5 工程

1.4.6 数学

1.4.7 运筹学

1.5 社会影响

1.6 本书组织结构

1.6.1 概率推理

1.6.2 序列问题

1.6.3 模型不确定性

1.6.4 状态不确定性

1.6.5 多智能体系统

第一部分概率推理

第2章表示

2.1 信念度和概率

2.2 概率分布

2.2.1 离散概率分布

2.2.2 连续概率分布

2.3 联合分布

2.3.1 离散联合分布

2.3.2 连续联合分配

2.4 条件分布

2.4.1 离散条件模型

2.4.2 条件高斯模型

2.4.3 线性高斯模型

2.4.4 条件线性高斯模型

2.4.5 sigmoid模型

2.4.6 确定性变量

2.5 贝叶斯网络

2.6 条件独立性

2.7 本章小结

2.8 练习题

第3章推理

3.1 贝叶斯网络中的推理

3.2 朴素贝叶斯模型中的推理

3.3 “和-积”变量消除

3.4 信念传播

3.5 计算复杂度

3.6 直接抽样

3.7 似然加权抽样

3.8 吉布斯抽样

3.9 高斯模型中的推理

3.10 本章小结

3.11 练习题

第4章参数学习

4.1 最大似然参数学习

4.1.1 类别分布的最大似然估计

4.1.2 高斯分布的最大似然估计

4.1.3 贝叶斯网络的最大似然估计

4.2 贝叶斯参数学习

4.2.1 二元分布的贝叶斯学习

4.2.2 类别分布的贝叶斯学习

4.2.3 贝叶斯网络的贝叶斯学习

4.3 非参数学习

4.4 缺失数据的学习

4.4.1 数据插值

4.4.2 期望最大化

4.5 本章小结

4.6 练习题

第5章结构学习

5.1 贝叶斯网络评分

5.2 有向图搜索

5.3 马尔可夫等价类

5.4 部分有向图搜索

5.5 本章小结

5.6 练习题

第6章简单决策

6.1 理性偏好上的约束

6.2 效用函数

6.3 效用诱导

6.4 最大期望效用原则

6.5 决策网络

6.6 信息价值

6.7 非理性

6.8 本章小结

6.9 练习题

第二部分序列问题

第7章精确求解方法

7.1 马尔可夫决策过程

7.2 策略评估

7.3 值函数策略

7.4 策略迭代

7.5 值迭代

7.6 异步值迭代

7.7 线性规划方程

7.8 具有二次型奖励的线性系统

7.9 本章小结

7.10 练习题

第8章近似值函数

8.1 参数化表示

8.2 最近邻

8.3 核平滑

8.4 线性插值

8.5 单纯形插值

8.6 线性回归

8.7 神经网络回归

8.8 本章小结

8.9 练习题

第9章在线规划

9.1 滚动时域规划

9.2 基于预演的前瞻算法

9.3 正向搜索

9.4 分支定界法

9.5 稀疏抽样

9.6 蒙特卡罗树搜索

9.7 启发式搜索

9.8 标记启发式搜索

9.9 开环规划

9.9.1 确定性模型预测控制

9.9.2 鲁棒模型预测控制

9.9.3 多重预测模型预测控制

9.10 本章小结

9.11 练习题

第10章策略搜索

10.1 近似策略评估

10.2 局部搜索

10.3 遗传算法

10.4 交叉熵方法

10.5 进化策略

10.6 各向同性进化策略

10.7 本章小结

10.8 练习题

第11章策略梯度值的估算

11.1 有限差分

11.2 回归梯度

11.3 似然比

11.4 “之后的奖励”方法

11.5 基线扣除法

11.6 本章小结

11.7 练习题

第12章策略梯度的优化

12.1 梯度上升更新

12.2 带约束条件的梯度更新

12.3 自然梯度更新

12.4 信任区域更新

12.5 剪裁代理目标

12.6 本章小结

12.7 练习题

第13章 “行为者-评论家”方法

13.1 “行为者-评论家”

13.2 广义优势估计

13.3 确定性策略梯度

13.4 蒙特卡罗树搜索的“行为者-评论家”

13.5 本章小结

13.6 练习题

第14章策略验证

14.1 性能指标评估

14.2 罕见事件模拟

14.3 鲁棒性分析

14.4 权衡分析

14.5 对抗性分析

14.6 本章小结

14.7 练习题

第三部分模型不确定性

第15章探索和利用

15.1 赌博机问题

15.2 贝叶斯模型估计

15.3 无向探索策略

15.4 有向探索策略

15.5 最佳探索策略

15.6 使用多个状态进行探索

15.7 本章小结

15.8 练习题

第16章基于模型的方法

16.1 最大似然模型

16.2 更新方案

16.2.1 完整更新

16.2.2 随机更新

16.2.3 优先更新

16.3 探索策略

16.4 贝叶斯方法

16.5 贝叶斯自适应马尔可夫决策过程

16.6 后验抽样

16.7 本章小结

16.8 练习题

第17章无模型的方法

17.1 均值的增量估计

17.2 Q-学习

17.3 Sarsa

17.4 资格迹

17.5 奖励塑形

17.6 行为值函数近似

17.7 经验回放

17.8 本章小结

17.9 练习题

第18章模仿学习

18.1 行为克隆

18.2 数据集聚合

18.3 随机混合迭代学习

18.4 最大边际逆向强化学习

18.5 最大熵逆向强化学习

18.6 生成式对抗性模仿学习

18.7 本章小结

18.8 练习题

第四部分状态不确定性

第19章信念

19.1 信念初始化

19.2 离散状态滤波器

19.3 卡尔曼滤波器

19.4 扩展卡尔曼滤波器

19.5 无迹卡尔曼滤波器

19.6 粒子滤波器

19.7 粒子注入

19.8 本章小结

19.9 练习题

第20章精确信念状态规划

20.1 信念-状态马尔可夫决策过程

20.2 条件规划

20.3 阿尔法向量

20.4 剪枝

20.5 值迭代

20.6 线性策略

20.7 本章小结

20.8 练习题

第21章离线信念状态规划

21.1 完全可观测值的近似

21.2 快速通知界限

21.3 快速下界

21.4 基于点的值迭代

21.5 基于随机点的值迭代

21.6 锯齿上界

21.7 点选择

21.8 锯齿启发式搜索

21.9 三角化的值函数

21.10 本章小结

21.11 练习题

第22章在线信念状态规划

22.1 具有预演的前瞻策略

22.2 正向搜索

22.3 分支定界法

22.4 稀疏抽样

22.5 蒙特卡罗树搜索

22.6 确定性稀疏树搜索

22.7 间隙启发式搜索

22.8 本章小结

22.9 练习题

第23章控制器抽象

23.1 控制器

23.2 策略迭代

23.3 非线性规划

23.4 梯度上升

23.5 本章小结

23.6 练习题

第五部分多智能体系统

第24章多智能体推理

24.1 简单博弈

24.2 响应模型

24.2.1 最优响应

24.2.2 Softmax响应

24.3 主导策略均衡

24.4 纳什均衡

24.5 相关均衡

24.6 迭代式最优响应

24.7 层次化Softmax

24.8 虚构博弈

24.9 梯度上升

24.10 本章小结

24.11 练习题

第25章序列问题

25.1 马尔可夫博弈

25.2 响应模型

25.2.1 最优响应

25.2.2 Softmax响应

25.3 纳什均衡

25.4 虚构博弈

25.5 梯度上升

25.6 纳什Q-学习

25.7 本章小结

25.8 练习题

第26章状态不确定性

26.1 部分可观测马尔可夫博弈

26.2 策略评估

26.2.1 评估条件规划

26.2.2 评估随机控制器

26.3 纳什均衡

26.4 动态规划

26.5 本章小结

26.6 练习题

第27章协作智能体

27.1 分散的部分可观测马尔可夫决策过程

27.2 Dec-POMDP的子类别

27.3 动态规划

27.4 迭代式最优响应

27.5 启发式搜索

27.6 非线性规划

27.7 本章小结

27.8 练习题

附录

附录A 数学概念

附录B 概率分布

附录C 计算复杂度

附录D 神经网络表示

附录E 搜索算法

附录F 决策问题

附录G Julia

参考文献

支持设备

你好!Python ￥60.00

关东升

￥60.00

Excel大神是怎么做表的￥45.00

吉田拳

￥45.00

算法基础:打开算法之门(双色版) ￥47.00

(美)托马斯·H· 科尔曼(Thomas H· Cormen)

￥47.00

架构师启示录:知识模型、落地方法与思维模式￥47.00

灵犀

￥47.00

巧用ChatGPT进行数据分析与挖掘￥59.00

谢佳标

￥59.00

精通API架构:设计、运维与演进￥59.00

(英)詹姆斯·高夫;(英)丹尼尔·布莱恩特;(英)马修·奥本

￥59.00

速学Linux:系统应用从入门到精通￥60.00

良许

￥60.00

Excel财务数据分析与可视化￥55.30

羊依军陆群

￥55.30

Go底层原理与工程化实践￥59.00

李乐;陈雷

￥59.00

ChatGPT写作超简单￥44.67

安晓辉著

￥44.67

更多同类图书 >

决策算法电子书

支持设备

你好!Python ￥60.00

Excel大神是怎么做表的 ￥45.00

算法基础:打开算法之门(双色版) ￥47.00

架构师启示录:知识模型、落地方法与思维模式 ￥47.00

巧用ChatGPT进行数据分析与挖掘 ￥59.00

精通API架构:设计、运维与演进 ￥59.00

速学Linux:系统应用从入门到精通 ￥60.00

Excel财务数据分析与可视化 ￥55.30

Go底层原理与工程化实践 ￥59.00

ChatGPT写作超简单 ￥44.67

当当云阅读

Excel大神是怎么做表的￥45.00

架构师启示录:知识模型、落地方法与思维模式￥47.00

巧用ChatGPT进行数据分析与挖掘￥59.00

精通API架构:设计、运维与演进￥59.00

速学Linux:系统应用从入门到精通￥60.00

Excel财务数据分析与可视化￥55.30

Go底层原理与工程化实践￥59.00

ChatGPT写作超简单￥44.67