为你推荐
内容简介
第1章 强化学习简介
1.1 强化学习的历史
1.2 强化学习基本概念
1.3 强化学习算法的分类
1.4 深度强化学习基本概念
1.5 强化学习的优缺点
1.6 蒙特卡洛梯度估计
1.7 总结
第2章 深入了解强化学习
2.1 强化学习基本要素
2.2 强化学习的探索和利用
2.3 策略迭代和价值迭代
2.4 贝尔曼方程及其应用
2.5 总结
第3章 强化学习环境
3.1 简单的强化学习环境
3.2 OpenAI Gym环境
3.3 DeepMind Lab强化学习环境
3.4 其他强化学习环境
3.5 深度强化学习框架简介
3.6 总结
第4章 深度Q函数强化学习算法
4.1 经典深度Q网络算法(DQN)
4.2 双网络Q学习算法(Double Q-Learning)
4.3 优先经验回放(Prioritized Experience Replay)
4.4 竞争DQN算法(Duel DQN)
4.5 分布形式的DQN算法(Distributional DQN)
4.6 彩虹算法(Rainbow)
4.7 总结
第5章 策略梯度强化学习算法
5.1 经典策略梯度算法(VPG)
5.2 优势演员-评论家算法(A2C和A3C)
5.3 置信区间策略优化算法
5.4 克罗内克分解近似置信区间算法(ACKTR)
5.5 软演员-评论家算法(SAC)
5.6 总结
第6章 其他强化学习算法
6.1 噪声网络(Noisy Networks)
6.2 深度确定性策略梯度算法(DDPG)
6.3 双延迟深度确定性策略梯度算法(TD3)
6.4 蒙特卡洛树搜索(MCTS)
6.5 总结
第7章 深度强化学习在实践中的应用
7.1 神经网络结构搜索(NAS)
7.2 超分辨率模型(SRGAN)
7.3 序列生成模型(SeqGAN)
7.4 基于深度强化学习的推荐系统
7.5 基于深度强化学习的交易系统
7.6 总结
附录A 本书使用的数学符号
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜