为你推荐

译者序
前言
符号总览
第一部分 多智能体强化学习的基础
第2章 强化学习
2.1 一般定义
2.2 马尔可夫决策过程
2.3 期望折扣回报和最优策略
2.4 价值函数与贝尔曼方程
2.5 动态规划
2.6 时序差分学习
2.7 学习曲线评估
2.8 ℛ(s,a,s′)和ℛ(s,a)的等价性
2.9 总结
第3章 博弈:多智能体交互模型
3.1 标准式博弈
3.2 重复标准式博弈
3.3 随机博弈
3.4 部分可观测随机博弈
3.5 建模通信
3.6 博弈中的知识假设
3.7 词典:强化学习与博弈论
3.8 总结
第4章 博弈的解概念
4.1 联合策略与期望回报
4.2 最佳响应
4.3 极小极大算法
4.4 纳什均衡
4.5 ε-纳什均衡
4.6 (粗)相关均衡
4.7 均衡解的概念局限性
4.8 帕雷托最优
4.9 社会福利和公平
4.10 无悔
4.11 均衡计算的复杂性
4.12 总结
第5章 博弈中的多智能体强化学习:第一步与挑战
5.1 一般学习过程
5.2 收敛类型
5.3 单智能体强化学习的简化
5.4 多智能体强化学习的挑战
5.5 智能体使用哪些算法
5.6 总结
第6章 多智能体强化学习:基础算法
6.1 博弈的动态规划:价值迭代
6.2 博弈中的时序差分:联合动作学习
6.3 智能体建模
6.4 基于策略的学习
6.5 无悔学习
6.6 总结
第二部分 多智能体深度强化学习:算法与实践
第7章 深度学习
7.1 强化学习的函数逼近
7.2 线性函数逼近
7.3 前馈神经网络
7.4 基于梯度的优化
7.5 卷积神经网络与递归神经网络
7.6 总结
第8章 深度强化学习
8.1 深度价值函数逼近
8.2 策略梯度算法
8.3 实践中的观测、状态和历史记录
8.4 总结
第9章 多智能体深度强化学习
9.1 训练和执行模式
9.2 多智能体深度强化学习的符号表示
9.3 独立学习
9.4 多智能体策略梯度算法
9.5 共享奖励博弈中的价值分解
9.6 使用神经网络的智能体建模
9.7 具有同质智能体的环境
9.8 零和博弈中的策略自博弈
9.9 基于种群的训练
9.10 总结
第10章 实践中的多智能体深度强化学习
10.1 智能体环境接口
10.2 PyTorch中的多智能体强化学习神经网络
10.3 集中式价值函数
10.4 价值分解
10.5 多智能体强化学习算法的实用技巧
10.6 实验结果的展示
第11章 多智能体环境
11.1 选择环境的标准
11.2 结构不同的2×2矩阵博弈
11.3 复杂环境
11.4 环境集合
多智能体强化学习研究综述
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜