欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 科技 > 计算机/网络 > 多媒体/数据通信 > 深度强化学习算法与实践:基于PyTorch的实现

深度强化学习算法与实践:基于PyTorch的实现

| | 手机阅读

扫描下载当当云阅读App

深度强化学习算法与实践:基于PyTorch的实现电子书

理论结合实践，从基础的知识始，深算法本质介绍各种强化学习环境及其使用方法利用PyTorch动态计算图的特构造深度学习算法涵盖各种强化学习算法，包括基于价值函数和基于策略的强化学习算法介绍强化学习在不同领域的应用，如何根据具体情况选择不同的强化学习算法

售价：¥

纸质售价：¥85.30购买纸书

78人正在读 | 0人评论

6.2

作者：张校捷

出版社：电子工业出版社

出版时间：2022-02-01

字数：16.5万

所属分类：科技 > 计算机/网络 > 多媒体/数据通信

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书从强化学习的基础知识出发，结合PyTorch深度学习框架，介绍深度强化学习算法各种模型的相关算法原理和基于PyTorch的代码实现。作为一本介绍深度强化学习知识的相关图书，本书介绍了常用的强化学习环境，基于价值网络的强化学习算法和基于策略梯度的强化学习算法，以及一些常用的比较流行的深度强化学习算法（如蒙特卡洛树搜索）等。另外，还介绍了深度强化学习算法在实际问题中的一些应用。<br/>【推荐语】<br/>理论结合实践，从基础的知识始，深算法本质介绍各种强化学习环境及其使用方法利用PyTorch动态计算图的特构造深度学习算法涵盖各种强化学习算法，包括基于价值函数和基于策略的强化学习算法介绍强化学习在不同领域的应用，如何根据具体情况选择不同的强化学习算法<br/>【作者】<br/>张校捷，Shopee资深机器学习工程师，负责推荐系统的算法实现和优化。目前主要使用的技术栈是深度学习框架后端的C/C /CUDA，以及深度学习框架前端的Python。熟悉主流的深度学习框架，如PyTorch和TensorFlow，同时熟悉计算机视觉、自然语言处理和推荐系统方面的深度学习算法。作者曾多次作为专题演讲嘉宾，受邀参加Google、PyCon和CSDN主办的技术大会。<br/>

目录展开

内容简介

第1章强化学习简介

1.1 强化学习的历史

1.2 强化学习基本概念

1.3 强化学习算法的分类

1.4 深度强化学习基本概念

1.5 强化学习的优缺点

1.6 蒙特卡洛梯度估计

1.7 总结

第2章深入了解强化学习

2.1 强化学习基本要素

2.2 强化学习的探索和利用

2.3 策略迭代和价值迭代

2.4 贝尔曼方程及其应用

2.5 总结

第3章强化学习环境

3.1 简单的强化学习环境

3.2 OpenAI Gym环境

3.3 DeepMind Lab强化学习环境

3.4 其他强化学习环境

3.5 深度强化学习框架简介

3.6 总结

第4章深度Q函数强化学习算法

4.1 经典深度Q网络算法（DQN）

4.2 双网络Q学习算法（Double Q-Learning）

4.3 优先经验回放（Prioritized Experience Replay）

4.4 竞争DQN算法（Duel DQN）

4.5 分布形式的DQN算法（Distributional DQN）

4.6 彩虹算法（Rainbow）

4.7 总结

第5章策略梯度强化学习算法

5.1 经典策略梯度算法（VPG）

5.2 优势演员-评论家算法（A2C和A3C）

5.3 置信区间策略优化算法

5.4 克罗内克分解近似置信区间算法（ACKTR）

5.5 软演员-评论家算法（SAC）

5.6 总结

第6章其他强化学习算法

6.1 噪声网络（Noisy Networks）

6.2 深度确定性策略梯度算法（DDPG）

6.3 双延迟深度确定性策略梯度算法（TD3）

6.4 蒙特卡洛树搜索（MCTS）

6.5 总结

第7章深度强化学习在实践中的应用

7.1 神经网络结构搜索（NAS）

7.2 超分辨率模型（SRGAN）

7.3 序列生成模型（SeqGAN）

7.4 基于深度强化学习的推荐系统

7.5 基于深度强化学习的交易系统

7.6 总结

附录A 本书使用的数学符号

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

剪映视频剪辑完全自学一本通

剪映视频剪辑完全自学一本通￥22.99

卢莉宏董磊唐增煦编著

￥22.99

02

AI艺术极简教程:零基础生成绘画、摄影、设计

AI艺术极简教程:零基础生成绘画、摄影、设计￥22.99

何惠、郭泽德、刘建军著

￥22.99

03

剪映视频剪辑/调色/*从入门到精通(手机版+电脑版)

剪映视频剪辑/调色/*从入门到精通(手机版+电脑版) ￥52.00

麓山剪辑社编著

￥52.00

04

短视频制作实战策划拍摄制作运营(全彩慕课版)(第2版)

短视频制作实战策划拍摄制作运营(全彩慕课版)(第2版) ￥22.99

郭韬主编

￥22.99

05

成为AI高手:人人都能上手的智能体实战指南

成为AI高手:人人都能上手的智能体实战指南￥70.00

唐舰长;卢军;等

￥70.00

06

可编程网络自动化

可编程网络自动化￥69.90

[美]贾森·埃德尔曼(Jason Edelman),[美]斯科特·S· 洛(Scott S· Lowe),[美]马特·奥斯瓦尔特(Matt Oswalt) 著

￥69.90

07

零基础开发AI Agent——手把手教你用扣子做智能体

零基础开发AI Agent——手把手教你用扣子做智能体￥70.00

叶涛;管锴;等

￥70.00

08

多智能体协同:基于大语言模型的工程实践与系统构建

多智能体协同:基于大语言模型的工程实践与系统构建￥69.30

周佺喜

￥69.30

09

神机妙算:一本关于算法的闲书

神机妙算:一本关于算法的闲书￥55.30

顾森

￥55.30

10

剪映+DeepSeek短视频剪辑全能一本通

剪映+DeepSeek短视频剪辑全能一本通￥52.00

Jack 著

￥52.00

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当云阅读问答

意见反馈

Copyright (C) 当当网 2004-2022, All Rights Reserved

京ICP备17043473号-1 | 出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书