携七大优势,带你一书学透强化学习,掌握ChatGPT背后的关键技术。 1)内容完备:完整地介绍了主流强化学习理论,全面覆盖主流强化学习算法,包括了资格迹等经典算法和MuZero等深度强化学习算法,且给出主要定理的证明过程。让你参透ChatGPT背后的关键技术。 2)表述一致:全书采用统一的数学符号,并兼容主流强化学习教程。 3)配套丰富:每章都配有知识总结、代码和习题。
售 价:¥
纸质售价:¥90.30购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
数学符号表
PREFACE 前言
CHAPTER 1 第1章 初识强化学习
1.1 强化学习及其关键元素
1.2 强化学习的应用
1.3 智能体/环境接口
1.4 强化学习的分类
1.5 强化学习算法的性能指标
1.6 案例:基于Gym库的智能体/环境接口
1.7 本章小结
1.8 练习与模拟面试
CHAPTER 2 第2章 Markov决策过程
2.1 Markov决策过程模型
2.2 价值
2.3 带折扣的分布
2.4 最优策略与最优价值
2.5 案例:悬崖寻路
2.6 本章小结
2.7 练习与模拟面试
CHAPTER 3 第3章 有模型数值迭代
3.1 Bellman算子及其性质
3.2 有模型策略迭代
3.3 价值迭代
3.4 自益与动态规划
3.5 案例:冰面滑行
3.6 本章小结
3.7 练习与模拟面试
CHAPTER 4 第4章 回合更新价值迭代
4.1 同策回合更新
4.2 异策回合更新
4.3 实验:21点游戏
4.4 本章小结
4.5 练习与模拟面试
CHAPTER 5 第5章 时序差分价值迭代
5.1 时序差分目标
5.2 同策时序差分更新
5.3 异策时序差分更新
5.4 资格迹
5.5 案例:的士调度
5.6 本章小结
5.7 练习与模拟面试
CHAPTER 6 第6章 函数近似方法
6.1 函数近似原理
6.2 基于梯度的参数更新
6.3 函数近似的收敛性
6.4 深度Q网络
6.5 案例:小车上山
6.6 本章小结
6.7 练习与模拟面试
CHAPTER 7 第7章 回合更新策略梯度方法
7.1 策略梯度算法的原理
7.2 同策回合更新策略梯度算法
7.3 异策回合更新策略梯度算法
7.4 案例:车杆平衡
7.5 本章小结
7.6 练习与模拟面试
CHAPTER 8 第8章 执行者/评论者
8.1 执行者/评论者方法
8.2 同策执行者/评论者算法
8.3 基于代理优势的同策算法
8.4 自然梯度和信赖域算法
8.5 重要性采样异策执行者/评论者算法
8.6 案例:双节倒立摆
8.7 本章小结
8.8 练习与模拟面试
CHAPTER 9 第9章 连续动作空间的确定性策略
9.1 确定性策略梯度定理
9.2 同策确定性算法
9.3 异策确定性算法
9.4 探索过程
9.5 案例:倒立摆的控制
9.6 本章小结
9.7 练习与模拟面试
CHAPTER 10 第10章 最大熵强化学习
10.1 最大熵强化学习与柔性强化学习理论
10.2 柔性强化学习算法
10.3 自动熵调节
10.4 案例:月球登陆器
10.5 本章小结
10.6 练习与模拟面试
CHAPTER 11 第11章 基于策略的无梯度算法
11.1 无梯度算法
11.2 无梯度算法和策略梯度算法的比较
11.3 案例:双足机器人
11.4 本章小结
11.5 练习与模拟面试
CHAPTER 12 第12章 值分布强化学习
12.1 价值分布及其性质
12.2 效用最大化强化学习
12.3 基于概率分布的算法
12.4 基于分位数的值分布强化学习
12.5 类别深度Q网络算法和分位数回归算法的比较
12.6 案例:Atari电动游戏Pong
12.7 本章小结
12.8 练习与模拟面试
CHAPTER 13 第13章 最小化遗憾
13.1 遗憾
13.2 多臂赌博机
13.3 置信上界价值迭代
13.4 案例:Bernoulli奖励多臂赌博机
13.5 本章小结
13.6 练习与模拟面试
CHAPTER 14 第14章 树搜索
14.1 回合更新树搜索
14.2 回合更新树搜索在棋盘游戏中的应用
14.3 案例:井字棋
14.4 本章小结
14.5 练习与模拟面试
CHAPTER 15 第15章 模仿学习和人类反馈强化学习
15.1 模仿学习
15.2 人类反馈强化学习和生成性预训练变换模型
15.3 案例:机器人行走
15.4 本章小结
15.5 练习与模拟面试
CHAPTER 16 第16章 更多智能体/环境接口模型
16.1 平均奖励离散时间Markov决策过程
16.2 连续时间Markov决策过程
16.3 非齐次Markov决策过程
16.4 半Markov决策过程
16.5 部分可观测Markov决策过程
16.6 案例:老虎
16.7 本章小结
16.8 练习与模拟面试
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜