欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 科技 > 计算机/网络 > 程序设计 > 深度强化学习实战

深度强化学习实战

| | 手机阅读

扫描下载当当云阅读App

深度强化学习实战电子书

1.详细讲解深度强化学习基础知识，内容丰富 2.提供多个实战案例，学习更有效，实践更有用 3.包含核心算法 PyTorch、OpenAI Gym等流行工具，新颖实用 4.作者在深度强化学习领域经验丰富，知识梳理清晰，易懂易学

售价：¥

纸质售价：¥94.60购买纸书

19人正在读 | 0人评论

6.4

作者：亚历山大 · 扎伊(Alexander Zai)布兰登·布朗(Brandon Brown) 著

出版社：人民邮电出版社有限公司

出版时间：2023-04-01

字数：29.2万

所属分类：科技 > 计算机/网络 > 程序设计

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书先介绍深度强化学习的基础知识及相关算法，然后给出多个实战项目，以期让读者可以根据环境的直反馈对智能体加以调整和改，提升运用深度强化学习技术解决实际问题的能力。本书涵盖深度Q网络、策略梯度法、演员-评论家算法、化算法、Dist-DQN、多智能体强化学习、可解释性强化学习等内容。本书给出的实战项目紧跟深度强化学习技术的发展趋势，且所有项目示例以Jupter Notebook样式给出，便于读者修改代码、观察结果并及时获取经验，能够带给读者交互式的学习体验。本书适合有一定深度学习和机器学习基础并对强化学习感兴趣的读者阅读。<br/>【推荐语】<br/>1.详细讲解深度强化学习基础知识，内容丰富 2.提供多个实战案例，学习更有效，实践更有用 3.包含核心算法 PyTorch、OpenAI Gym等流行工具，新颖实用 4.作者在深度强化学习领域经验丰富，知识梳理清晰，易懂易学<br/>【作者】<br/>Alexander Zai曾担任Codesmith（一个沉浸式的编码训练营）首席技术官和技术顾问、Uber 软件工程师、Bonjo和AmazonAI机器学习工程师，他也是源深度学习框架Apache MXNet的贡献者。此外，他还是两家公司的联合创立人，其中一家曾是Y-combinator的参与者。 Brandon Brown从很小的时候就始编程，大学期间做过兼职软件工程师，但终选择投身医疗行业（在此期间，他在医疗保健科技领域担任软件工程师）。受深度强化学习的启发，他近期专注于计算精神病学的研究。<br/>

目录展开

内容提要

致谢

前言

目标读者

本书内容

关于代码

作者简介

封面插画简介

资源与支持

提交勘误

扫码关注本书

与我们联系

关于异步社区和异步图书

第一部分基础篇

第1章什么是强化学习

1.1 深度强化学习中的“深度”

1.2 强化学习

1.3 动态规划与蒙特卡洛

1.4 强化学习框架

1.5 强化学习可以做什么

1.6 为什么是深度强化学习

1.7 教学工具：线图

1.8 后续内容概述

小结

第2章强化学习问题建模：马尔可夫决策过程

2.1 线图与本书的教学方法

2.2 解决多臂老虎机问题

2.3 应用老虎机算法优化广告投放

2.4 利用PyTorch构建网络

2.5 解决上下文老虎机问题

2.6 马尔可夫性质

2.7 预测未来奖励：价值和策略函数

小结

第3章预测最佳状态和动作：深度Q网络

3.1 Q函数

3.2 Q-learning导航

3.3 防止灾难性遗忘：经验回放

3.4 利用目标网络提高稳定性

3.5 回顾

小结

第4章学习选择最佳策略：策略梯度法

4.1 使用神经网络的策略函数

4.2 强化良好动作：策略梯度算法

4.3 与OpenAI Gym配合

4.4 REINFORCE算法

小结

第5章利用演员-评论家算法解决更复杂的问题

5.1 重构价值-策略函数

5.2 分布式训练

5.3 演员-评论家优势算法

5.4 N -step演员-评论家算法

小结

第二部分进阶篇

第6章可替代的优化方法：进化算法

6.1 另一种强化学习方法

6.2 具有进化策略的强化学习

6.3 CartPole的遗传算法

6.4 进化算法的优缺点

6.5 进化算法作为一种可扩展的替代方案

小结

第7章 Dist-DQN：获取完整故事

7.1 Q-learning存在的问题

7.2 再论概率统计

7.3 贝尔曼方程

7.4 分布式Q-learning

7.5 比较概率分布

7.6 模拟数据上的Dist-DQN

7.7 使用分布式Q-learning玩Freeway

小结

第8章好奇心驱动的探索

8.1 利用预测编码处理稀疏奖励

8.2 反向动态预测

8.3 搭建《超级马里奥兄弟》环境

8.4 预处理和Q网络

8.5 创建Q网络和策略函数

8.6 内在好奇心模块

8.7 可替代的内在奖励机制

小结

第9章多智能体强化学习

9.1 从单个到多个智能体

9.2 邻域Q-learning

9.3 一维伊辛模型

9.4 平均场Q-learning和二维伊辛模型

9.5 混合合作竞技游戏

小结

第10章强化学习可解释性：注意力和关系模型

10.1 带注意力和关系偏差的机器学习可解释性

10.2 利用注意力进行关系推理

10.3 对MNIST实现自注意力

10.4 多头注意力和关系DQN

10.5 双Q-learning

10.6 训练和注意力可视化

小结

第11章总结：回顾和路线图

11.1 我们学到了什么

11.2 深度强化学习中的未知课题

全书结语

附录A 数学、深度学习和PyTorch

A.1 线性代数

A.2 微积分

A.3 深度学习

A.4 PyTorch

参考资料

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

图解Skill:AI提效实战指南

图解Skill:AI提效实战指南￥39.90

宝玉著

￥39.90

02

Python从入门到全栈开发

Python从入门到全栈开发￥70.00

钱超

￥70.00

03

大模型应用开发动手做AI Agent

大模型应用开发动手做AI Agent ￥57.47

黄佳著

￥57.47

04

Python网络爬虫与数据分析从入门到实践

Python网络爬虫与数据分析从入门到实践￥55.86

马国俊

￥55.86

05

Python编程:从入门到实践(第3版)

Python编程:从入门到实践(第3版) ￥54.90

[美]埃里克·马瑟斯(Eric Matthes) 著

￥54.90

06

程序员必会的40种算法

程序员必会的40种算法￥59.40

(加)伊姆兰·艾哈迈德(Imran Ahmad)

￥59.40

07

懒人“养虾”攻略:OpenClaw+豆包+扣子+飞书落地实战指南

懒人“养虾”攻略:OpenClaw+豆包+扣子+飞书落地实战指南￥45.00

林园编著

￥45.00

08

量化投资：策略与技术

量化投资：策略与技术￥22.00

丁鹏

￥22.00

09

Python完全自学教程

Python完全自学教程￥57.54

明日科技编著

￥57.54

10

Python+Office:轻松实现Python办公自动化

Python+Office:轻松实现Python办公自动化￥55.30

王国平

￥55.30

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当云阅读问答

意见反馈

Copyright (C) 当当网 2004-2022, All Rights Reserved

京ICP备17043473号-1 | 出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书