万本电子书0元读

万本电子书0元读

顶部广告

多智能体强化学习:基础与现代方法电子书

《多智能体强化学习:基础与现代方法》是多智能体强化学习领域的权威之作,作者巧妙地将强化学习与博弈论相结合,为该领域的研究和应用奠定了坚实基础。本书不仅适合初学者门,更为成熟研究人员提供了深度洞察和真知灼见,是多智能体强化学习不可或缺的参考书。

售       价:¥

纸质售价:¥81.70购买纸书

12人正在读 | 0人评论 6.5

作       者:(德)斯特凡诺·V· 阿尔布莱希特,(希)菲利波斯·克里斯蒂安诺斯,(德)卢卡斯·舍费尔

出  版  社:机械工业出版社

出版时间:2025-04-23

字       数:23.0万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)是机器学习中的一个领域,研究多个智能体如何在共享环境中学习最优的交互方式。这一领域在现代生活中有着广泛的应用,包括自动驾驶、多机器人工厂、自动化交易和能源网络管理等。 本书是一部系统阐述多智能体强化学习理论与技术的权威著作,清晰而严谨地介绍了MARL的模型、解决方案概念、算法思想、技术挑战以及现代方法。书中首先介绍了该领域的基础知识,包括强化学习理论和算法的基础、交互式博弈模型、博弈中的不同解决方案概念以及支撑MARL研究的算法思想。随后,书中详细介绍了利用深度学习技术的现代MARL算法,涵盖集中训练与分散执行、价值分解、参数共享和自博弈等思想。本书还附带了一个用Python编写的MARL代码库,其中包括自包含且易于阅读的MARL算法实现。 本书技术内容以易于理解的语言解释,并通过大量示例行说明,既为初学者阐明了MARL的概念,也为专业的读者提供了高层次的见解。<br/>【推荐语】<br/>《多智能体强化学习:基础与现代方法》是多智能体强化学习领域的权威之作,作者巧妙地将强化学习与博弈论相结合,为该领域的研究和应用奠定了坚实基础。本书不仅适合初学者门,更为成熟研究人员提供了深度洞察和真知灼见,是多智能体强化学习不可或缺的参考书。<br/>【作者】<br/>斯特凡诺·V. 阿尔布莱希特(Stefano V. Albrecht)爱丁堡大学信息学院人工智能专业副教授,并担任该校自主智能体研究组负责人,同时是英国皇家工程院工业研究员、阿兰·图灵研究所多智能体系统研究团队领军学者。他的研究聚焦自主智能体、多智能体系统、强化学习和博弈论领域,核心方向是不确定情况下的序贯决策。菲利波斯·克里斯蒂安诺斯(Filippos Christianos)多智能体深度强化学习领域的研究科学家,主要研究如何高效地使用MARL算法。他编写了多个流行的MARL代码库。卢卡斯·舍费尔(Lukas Sch?fer)多智能体强化学习领域的一位资深研究人员,专注于利用深度强化学习完成更具通用性、鲁棒性和样本效率的决策制定。<br/>
目录展开

译者序

前言

符号总览

第一部分 多智能体强化学习的基础

第2章 强化学习

2.1 一般定义

2.2 马尔可夫决策过程

2.3 期望折扣回报和最优策略

2.4 价值函数与贝尔曼方程

2.5 动态规划

2.6 时序差分学习

2.7 学习曲线评估

2.8 ℛ(s,a,s′)和ℛ(s,a)的等价性

2.9 总结

第3章 博弈:多智能体交互模型

3.1 标准式博弈

3.2 重复标准式博弈

3.3 随机博弈

3.4 部分可观测随机博弈

3.5 建模通信

3.6 博弈中的知识假设

3.7 词典:强化学习与博弈论

3.8 总结

第4章 博弈的解概念

4.1 联合策略与期望回报

4.2 最佳响应

4.3 极小极大算法

4.4 纳什均衡

4.5 ε-纳什均衡

4.6 (粗)相关均衡

4.7 均衡解的概念局限性

4.8 帕雷托最优

4.9 社会福利和公平

4.10 无悔

4.11 均衡计算的复杂性

4.12 总结

第5章 博弈中的多智能体强化学习:第一步与挑战

5.1 一般学习过程

5.2 收敛类型

5.3 单智能体强化学习的简化

5.4 多智能体强化学习的挑战

5.5 智能体使用哪些算法

5.6 总结

第6章 多智能体强化学习:基础算法

6.1 博弈的动态规划:价值迭代

6.2 博弈中的时序差分:联合动作学习

6.3 智能体建模

6.4 基于策略的学习

6.5 无悔学习

6.6 总结

第二部分 多智能体深度强化学习:算法与实践

第7章 深度学习

7.1 强化学习的函数逼近

7.2 线性函数逼近

7.3 前馈神经网络

7.4 基于梯度的优化

7.5 卷积神经网络与递归神经网络

7.6 总结

第8章 深度强化学习

8.1 深度价值函数逼近

8.2 策略梯度算法

8.3 实践中的观测、状态和历史记录

8.4 总结

第9章 多智能体深度强化学习

9.1 训练和执行模式

9.2 多智能体深度强化学习的符号表示

9.3 独立学习

9.4 多智能体策略梯度算法

9.5 共享奖励博弈中的价值分解

9.6 使用神经网络的智能体建模

9.7 具有同质智能体的环境

9.8 零和博弈中的策略自博弈

9.9 基于种群的训练

9.10 总结

第10章 实践中的多智能体深度强化学习

10.1 智能体环境接口

10.2 PyTorch中的多智能体强化学习神经网络

10.3 集中式价值函数

10.4 价值分解

10.5 多智能体强化学习算法的实用技巧

10.6 实验结果的展示

第11章 多智能体环境

11.1 选择环境的标准

11.2 结构不同的2×2矩阵博弈

11.3 复杂环境

11.4 环境集合

多智能体强化学习研究综述

参考文献

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部