为你推荐
内容简介
第1章 强化学习概述
1.1 机器学习中的强化学习
1.2 智能控制中的强化学习
1.3 强化学习分支
1.4 本书贡献
1.5 本书结构
参考文献
第2章 相关研究及背景知识
2.1 马尔可夫决策过程
2.2 基于值函数的策略学习算法
2.2.1 值函数
2.2.2 策略迭代和值迭代
2.2.3 Q-learning
2.2.4 基于最小二乘法的策略迭代算法
2.2.5 基于值函数的深度强化学习方法
2.3 策略搜索算法
2.3.1 策略搜索算法建模
2.3.2 传统策略梯度算法(REINFORCE算法)
2.3.3 自然策略梯度方法(Natural Policy Gradient)
2.3.4 期望最大化的策略搜索方法
2.3.5 基于策略的深度强化学习方法
2.4 本章小结
参考文献
第3章 策略梯度估计的分析与改进
3.1 研究背景
3.2 基于参数探索的策略梯度算法(PGPE算法)
3.3 梯度估计方差分析
3.4 基于最优基线的算法改进及分析
3.4.1 最优基线的基本思想
3.4.2 PGPE算法的最优基线
3.5 实验结果
3.5.1 示例
3.5.2 倒立摆平衡问题
3.6 总结与讨论
参考文献
第4章 基于重要性采样的参数探索策略梯度算法
4.1 研究背景
4.2 异策略场景下的PGPE算法
4.2.1 重要性加权PGPE算法
4.2.2 IW-PGPE算法的最优基线
4.3 实验结果
4.3.1 示例
4.3.2 山地车任务
4.3.3 机器人仿真控制任务
4.4 总结和讨论
参考文献
第5章 方差正则化策略梯度算法
5.1 研究背景
5.2 正则化策略梯度算法
5.2.1 目标函数
5.2.2 梯度计算方法
5.3 实验结果
5.3.1 数值示例
5.3.2 山地车任务
5.4 总结和讨论
参考文献
第6章 基于参数探索的策略梯度算法的采样技术
6.1 研究背景
6.2 基于参数探索的策略梯度算法中的采样技术
6.2.1 基线采样
6.2.2 最优基线采样
6.2.3 对称采样
6.2.4 超对称采样
6.2.5 多模态超对称采样
6.2.6 SupSymPGPE的奖励归一化
6.3 实验结果
6.3.1 平方函数
6.3.2 Rastrigin函数
6.4 本章总结
参考文献
第7章 基于样本有效重用的人形机器人的运动技能学习
7.1 研究背景:真实环境下的运动技能学习
7.2 运动技能学习框架
7.2.1 机器人的运动路径和回报
7.2.2 策略模型
7.2.3 基于PGPE算法的策略学习方法
7.3 有效重用历史经验
7.3.1 基于重要性加权的参数探索策略梯度算法(IW-PGPE算法)
7.3.2 基于IW-PGPE算法的运动技能学习过程
7.3.3 递归型IW-PGPE算法
7.4 虚拟环境中的车杆摆动任务
7.5 篮球射击任务
7.6 讨论与结论
参考文献
第8章 基于逆强化学习的艺术风格学习及水墨画渲染
8.1 研究背景
8.1.1 计算机图形学背景
8.1.2 人工智能背景
8.1.3 面向艺术风格化的渲染系统
8.2 基于强化学习的笔刷智能体建模
8.2.1 动作的设计
8.2.2 状态的设计
8.3 离线艺术风格学习阶段
8.3.1 数据采集
8.3.2 基于逆强化学习的奖励函数学习
8.3.3 基于R-PGPE算法的渲染策略学习
8.4 A4系统用户界面
8.5 实验与结果
8.5.1 渲染策略学习结果
8.5.2 基于IRL进行笔画绘制的渲染结果
8.6 本章小结
参考文献
彩插
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜