沿袭“鱼书”系列风格,提供实际代码,边实践边学习,无须依赖外部库,从零始实现支撑强化学习的基础技术。 本书有什么特? ●把握潮流中的变与不变 在快速发展变化的深度学习领域,有变化的事物,有不变的事物。有些事物会随潮流而消逝,有些则会被传承下去。本书从马尔可夫决策过程、贝尔曼方程、蒙特卡洛方法、时间差分法等强化学习基础方法,自然而然地过渡到神经网络和深度学习,从前沿视角为读者遴选出最值得关注的强化学习理论和方法。
售 价:¥
纸质售价:¥54.90购买纸书
6.5
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐

前言
本书的编写理念
整体流程
必要的软件
文件构成
变化的东西和不变的东西
排版规则
读者意见与咨询
第 1 章 老虎机问题
1.1 机器学习的分类与强化学习
1.1.1 监督学习
1.1.2 无监督学习
1.1.3 强化学习
1.2 老虎机问题
1.2.1 什么是老虎机问题
1.2.2 什么是好的老虎机
1.2.3 使用数学式表示
1.3 老虎机算法
1.3.1 价值的估计方法
1.3.2 求平均值的实现
1.3.3 玩家的策略
1.4 老虎机算法的实现
1.4.1 老虎机的实现
1.4.2 智能代理的实现
1.4.3 尝试运行
1.4.4 算法平均的特性
1.5 非稳态问题
1.5.1 解决非稳态问题前的准备工作
1.5.2 解决非稳态问题
1.6 小结
第 2 章 马尔可夫决策过程
2.1 什么是 MDP
2.1.1 MDP 的具体例子
2.1.2 智能代理与环境的互动
2.2 环境和智能代理的数学表示
2.2.1 状态迁移
2.2.2 奖励函数
2.2.3 智能代理的策略
2.3 MDP 的目标
2.3.1 回合制任务和连续性任务
2.3.2 收益
2.3.3 状态价值函数
2.3.4 最优策略和最优价值函数
2.4 MDP 的例子
2.4.1 回溯线形图
2.4.2 找出最优策略
2.5 小结
第 3 章 贝尔曼方程
3.1 贝尔曼方程的推导
3.1.1 概率和期望值(推导贝尔曼方程的准备)
3.1.2 贝尔曼方程的推导
3.2 贝尔曼方程的例子
3.2.1 有两个方格的网格世界
3.2.2 贝尔曼方程的意义
3.3 行动价值函数与贝尔曼方程
3.3.1 行动价值函数
3.3.2 使用行动价值函数的贝尔曼方程
3.4 贝尔曼最优方程
3.4.1 状态价值函数的贝尔曼最优方程
3.4.2 Q 函数的贝尔曼最优方程
3.5 贝尔曼最优方程的示例
3.5.1 应用贝尔曼最优方程
3.5.2 得到最优策略
3.6 小结
第 4 章 动态规划法
4.1 动态规划法和策略评估
4.1.1 动态规划法简介
4.1.2 尝试迭代策略评估
4.1.3 迭代策略评估的其他实现方式
4.2 解决更大的问题
4.2.1 GridWorld类的实现
4.2.2 defaultdict 的用法
4.2.3 迭代策略评估的实现
4.3 策略迭代法
4.3.1 策略的改进
4.3.2 重复评估和改进
4.4 实施策略迭代法
4.4.1 改进策略
4.4.2 重复评估和改进
4.5 价值迭代法
4.5.1 价值迭代法的推导
4.5.2 价值迭代法的实现
4.6 小结
第 5 章 蒙特卡洛方法
5.1 蒙特卡洛方法的基础知识
5.1.1 骰子的点数和
5.1.2 分布模型和样本模型
5.1.3 蒙特卡洛方法的实现
5.2 使用蒙特卡洛方法评估策略
5.2.1 使用蒙特卡洛方法计算价值函数
5.2.2 求所有状态的价值函数
5.2.3 蒙特卡洛方法的高效实现
5.3 蒙特卡洛方法的实现
5.3.1 step 方法
5.3.2 智能代理类的实现
5.3.3 运行蒙特卡洛方法
5.4 使用蒙特卡洛方法的策略控制
5.4.1 评估和改进
5.4.2 使用蒙特卡洛方法实现策略控制
5.4.3 ε-greedy 算法(第 1 个修改)
5.4.4 修改为固定值 α 的方式(第 2 个修改)
5.4.5 [ 修改版 ]使用蒙特卡洛方法实现策略迭代法
5.5 异策略型和重要性采样
5.5.1 同策略型和异策略型
5.5.2 重要性采样
5.5.3 如何减小方差
5.6 小结
第 6 章 TD 方法
6.1 使用 TD 方法评估策略
6.1.1 TD 方法的推导
6.1.2 MC 方法和 TD 方法的比较
6.1.3 TD 方法的实现
6.2 SARSA
6.2.1 同策略型的 SARSA
6.2.2 SARSA 的实现
6.3 异策略型的 SARSA
6.3.1 异策略型和重要性采样
6.3.2 异策略型的 SARSA 的实现
6.4 Q 学习
6.4.1 贝尔曼方程与 SARSA
6.4.2 贝尔曼最优方程与 Q 学习
6.4.3 Q 学习的实现
6.5 分布模型与样本模型
6.5.1 分布模型与样本模型
6.5.2 样本模型版的 Q 学习
6.6 小结
第 7 章 神经网络和 Q 学习
7.1 DeZero 简介
7.1.1 使用 DeZero
7.1.2 多维数组(张量)和函数
7.1.3 最优化
7.2 线性回归
7.2.1 玩具数据集
7.2.2 线性回归的理论知识
7.2.3 线性回归的实现
7.3 神经网络
7.3.1 非线性数据集
7.3.2 线性变换和激活函数
7.3.3 神经网络的实现
7.3.4 层与模型
7.3.5 优化器(最优化方法)
7.4 Q 学习与神经网络
7.4.1 神经网络的预处理
7.4.2 表示 Q 函数的神经网络
7.4.3 神经网络和 Q 学习
7.5 小结
第 8 章 DQN
8.1 OpenAI Gym
8.1.1 OpenAIGym 的基础知识
8.1.2 随机智能代理
8.2 DQN 的核心技术
8.2.1 经验回放
8.2.2 经验回放的实现
8.2.3 目标网络
8.2.4 目标网络的实现
8.2.5 运行 DQN
8.3 DQN 与 Atari
8.3.1 Atari 的游戏环境
8.3.2 预处理
8.3.3 CNN
8.3.4 其他技巧
8.4 DQN 的扩展
8.4.1 DoubleDQN
8.4.2 优先级经验回放
8.4.3 DuelingDQN
8.5 小结
第 9 章 策略梯度法
9.1 最简单的策略梯度法
9.1.1 策略梯度法的推导
9.1.2 策略梯度法的算法
9.1.3 策略梯度法的实现
9.2 REINFORCE
9.2.1 REINFORCE 算法
9.2.2 REINFORCE 的实现
9.3 基线
9.3.1 基线的思路
9.3.2 带基线的策略梯度法
9.4 Actor-Critic
9.4.1 Actor-Critic 的推导
9.4.2 Actor-Critic 的实现
9.5 基于策略的方法的优点
9.6 小结
第 10 章 进一步学习
10.1 深度强化学习算法的分类
10.2 策略梯度法的改进算法
10.2.1 A3C 和 A2C
10.2.2 DDPG
10.2.3 TRPO 和 PPO
10.3 DQN 的改进算法
10.3.1 分类 DQN
10.3.2 NoisyNetwork
10.3.3 Rainbow
10.3.4 在 Rainbow 以后提出的改进算法
10.4 案例研究
10.4.1 棋盘游戏
10.4.2 机器人控制
10.4.3 NAS
10.4.4 其他案例
10.5 深度强化学习的挑战和可能性
10.5.1 应用于实际系统
10.5.2 将问题表示为 MDP 形式时的建议
10.5.3 通用人工智能系统
10.6 小结
附录 A 异策略型的蒙特卡洛方法
A.1 异策略型的蒙特卡洛方法的理论知识
A.2 异策略型的蒙特卡洛方法的实现
附录 B n-step TD 方法
附录 C Double DQN 的理解
C.1 什么是过估计
C.2 过估计的解决方法
附录 D 策略梯度法的证明
D.1 策略梯度法的推导
D.2 基线的推导
后记
参考文献
第 1 章 老虎机问题
第 2 章 马尔可夫决策过程
第 4 章 动态规划法
第 7 章 神经网络和 Q 学习
第 8 章 DQN
第 9 章 策略梯度法
第 10 章 进一步学习
附录 C
看完了
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜