万本电子书0元读

万本电子书0元读

顶部广告

强化学习:原理与Python实战电子书

携七大优势,带你一书学透强化学习,掌握ChatGPT背后的关键技术。 1)内容完备:完整地介绍了主流强化学习理论,全面覆盖主流强化学习算法,包括了资格迹等经典算法和MuZero等深度强化学习算法,且给出主要定理的证明过程。让你参透ChatGPT背后的关键技术。 2)表述一致:全书采用统一的数学符号,并兼容主流强化学习教程。 3)配套丰富:每章都配有知识总结、代码和习题。

售       价:¥

纸质售价:¥129.00购买纸书

19人正在读 | 0人评论 6.6

作       者:肖智清

出  版  社:机械工业出版社

出版时间:2023-07-21

字       数:20.9万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书从原理和实战两个方面介绍了强化学习。原理方面,深介绍了主流强化学习理论和算法,覆盖资格迹等经典算法和MuZero等深度强化学习算法;实战方面,每章都配套了编程案例,以方便读者学习。 全书从逻辑上分为三部分。 第1章:从零始介绍强化学习的背景知识,介绍环境库Gym的使用。 第2~15章:基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论,而在理论的基础上讲解算法,并为算法提供配套代码实现。基础理论的讲解突出主干部分,算法讲解全面覆盖主流的强化学习算法,包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应,还给出了深度强化学习算法的TensorFlow和PyTorch对照实现。 第16章:介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型、半Markov模型、部分可观测模型等,以便更好了解强化学习研究的全貌。  <br/>【推荐语】<br/>携七大优势,带你一书学透强化学习,掌握ChatGPT背后的关键技术。 1)内容完备:完整地介绍了主流强化学习理论,全面覆盖主流强化学习算法,包括了资格迹等经典算法和MuZero等深度强化学习算法,且给出主要定理的证明过程。让你参透ChatGPT背后的关键技术。 2)表述一致:全书采用统一的数学符号,并兼容主流强化学习教程。 3)配套丰富:每章都配有知识总结、代码和习题。 4)环境全面:既有Gym的内置环境,也有在Gym基础上一步扩展的第三方环境,还带领读者一起实现了自定义的环境。 5)兼容广泛:所有代码均可在Windows、macOS、Linux上运行,提供安装和配置方法。同时,为深度强化学习相关算法提供了TensorFlow和PyTorch的对照实现,学习方案任你选择。 6)硬件要求低:所有代码均可在没有GPU的个人计算机上运行,也可以在线查阅运行结果。 7)版权输出:本书内容受到国际知名出版社Springer和评审专家认可,英文版同步输出,以飨读者。<br/>【作者】<br/>肖智清 强化学习一线研发人员,清华大学工学博士。在国内外出版多本人工智能专著,在知名期刊和会议上发表多篇第一作者论文。他是源项目Gym的源码贡献者,并在国内外多项程序设计和数据科学竞赛上获得冠军。<br/>
目录展开

数学符号表

PREFACE 前言

CHAPTER 1 第1章 初识强化学习

1.1 强化学习及其关键元素

1.2 强化学习的应用

1.3 智能体/环境接口

1.4 强化学习的分类

1.5 强化学习算法的性能指标

1.6 案例:基于Gym库的智能体/环境接口

1.7 本章小结

1.8 练习与模拟面试

CHAPTER 2 第2章 Markov决策过程

2.1 Markov决策过程模型

2.2 价值

2.3 带折扣的分布

2.4 最优策略与最优价值

2.5 案例:悬崖寻路

2.6 本章小结

2.7 练习与模拟面试

CHAPTER 3 第3章 有模型数值迭代

3.1 Bellman算子及其性质

3.2 有模型策略迭代

3.3 价值迭代

3.4 自益与动态规划

3.5 案例:冰面滑行

3.6 本章小结

3.7 练习与模拟面试

CHAPTER 4 第4章 回合更新价值迭代

4.1 同策回合更新

4.2 异策回合更新

4.3 实验:21点游戏

4.4 本章小结

4.5 练习与模拟面试

CHAPTER 5 第5章 时序差分价值迭代

5.1 时序差分目标

5.2 同策时序差分更新

5.3 异策时序差分更新

5.4 资格迹

5.5 案例:的士调度

5.6 本章小结

5.7 练习与模拟面试

CHAPTER 6 第6章 函数近似方法

6.1 函数近似原理

6.2 基于梯度的参数更新

6.3 函数近似的收敛性

6.4 深度Q网络

6.5 案例:小车上山

6.6 本章小结

6.7 练习与模拟面试

CHAPTER 7 第7章 回合更新策略梯度方法

7.1 策略梯度算法的原理

7.2 同策回合更新策略梯度算法

7.3 异策回合更新策略梯度算法

7.4 案例:车杆平衡

7.5 本章小结

7.6 练习与模拟面试

CHAPTER 8 第8章 执行者/评论者

8.1 执行者/评论者方法

8.2 同策执行者/评论者算法

8.3 基于代理优势的同策算法

8.4 自然梯度和信赖域算法

8.5 重要性采样异策执行者/评论者算法

8.6 案例:双节倒立摆

8.7 本章小结

8.8 练习与模拟面试

CHAPTER 9 第9章 连续动作空间的确定性策略

9.1 确定性策略梯度定理

9.2 同策确定性算法

9.3 异策确定性算法

9.4 探索过程

9.5 案例:倒立摆的控制

9.6 本章小结

9.7 练习与模拟面试

CHAPTER 10 第10章 最大熵强化学习

10.1 最大熵强化学习与柔性强化学习理论

10.2 柔性强化学习算法

10.3 自动熵调节

10.4 案例:月球登陆器

10.5 本章小结

10.6 练习与模拟面试

CHAPTER 11 第11章 基于策略的无梯度算法

11.1 无梯度算法

11.2 无梯度算法和策略梯度算法的比较

11.3 案例:双足机器人

11.4 本章小结

11.5 练习与模拟面试

CHAPTER 12 第12章 值分布强化学习

12.1 价值分布及其性质

12.2 效用最大化强化学习

12.3 基于概率分布的算法

12.4 基于分位数的值分布强化学习

12.5 类别深度Q网络算法和分位数回归算法的比较

12.6 案例:Atari电动游戏Pong

12.7 本章小结

12.8 练习与模拟面试

CHAPTER 13 第13章 最小化遗憾

13.1 遗憾

13.2 多臂赌博机

13.3 置信上界价值迭代

13.4 案例:Bernoulli奖励多臂赌博机

13.5 本章小结

13.6 练习与模拟面试

CHAPTER 14 第14章 树搜索

14.1 回合更新树搜索

14.2 回合更新树搜索在棋盘游戏中的应用

14.3 案例:井字棋

14.4 本章小结

14.5 练习与模拟面试

CHAPTER 15 第15章 模仿学习和人类反馈强化学习

15.1 模仿学习

15.2 人类反馈强化学习和生成性预训练变换模型

15.3 案例:机器人行走

15.4 本章小结

15.5 练习与模拟面试

CHAPTER 16 第16章 更多智能体/环境接口模型

16.1 平均奖励离散时间Markov决策过程

16.2 连续时间Markov决策过程

16.3 非齐次Markov决策过程

16.4 半Markov决策过程

16.5 部分可观测Markov决策过程

16.6 案例:老虎

16.7 本章小结

16.8 练习与模拟面试

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部