欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 科技 > 计算机/网络 > 软件系统 > 强化学习入门:从原理到实践

强化学习入门:从原理到实践

| | 手机阅读

扫描下载当当云阅读App

强化学习入门:从原理到实践电子书

售价：¥

纸质售价：¥57.00购买纸书

31人正在读 | 0人评论

6.5

作者：叶强,闫维新,黎斌

出版社：机械工业出版社

出版时间：2020-08-01

字数：16.1万

所属分类：科技 > 计算机/网络 > 软件系统

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书以理论和实践相结合的形式深浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术，共分为三大部分：第壹部分（1～5章）介绍强化学习的发展历史、强化学习的基本概念以及一些经典的强化学习算法；第二部分（6～9章）在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法；第三部分（*后一章）以五子棋为例详细讲解战胜了人类*围棋选手的Alpha Zero算法的核心思想。<br/>

目录展开

前言

致谢

常用数学符号

主要算法列表

第1章概述

1.1 强化学习的历史

1.2 强化学习的基本概念

1.3 章节组织

1.4 编程环境与代码资源

第2章从一个示例到马尔可夫决策过程

2.1 马尔可夫过程

2.2 马尔可夫奖励过程

2.3 马尔可夫决策过程

2.4 编程实践：学生马尔可夫决策示例

2.4.1 收获和价值的计算

2.4.2 验证贝尔曼方程

第3章动态规划寻找最优策略

3.1 策略评估

3.2 策略迭代

3.3 价值迭代

3.4 异步动态规划算法

3.5 编程实践：动态规划求解小型格子世界最优策略

3.5.1 小型格子世界MDP建模

3.5.2 策略评估

3.5.3 策略迭代

3.5.4 价值迭代

第4章不基于模型的预测

4.1 蒙特卡罗强化学习

4.2 时序差分强化学习

4.3 n步时序差分学习

4.4 编程实践：蒙特卡罗学习评估21点游戏的玩家策略

4.4.1 21点游戏规则

4.4.2 将21点游戏建模为强化学习问题

4.4.3 游戏场景的搭建

4.4.4 生成对局数据

4.4.5 策略评估

第5章无模型的控制

5.1 行为价值函数的重要性

5.2 贪婪策略

5.3 同策略蒙特卡罗控制

5.4 同策略时序差分控制

5.4.1 Sarsa算法

5.4.2 Sarsa(λ)算法

5.4.3 比较Sarsa和Sarsa(λ)

5.5 异策略Q学习算法

5.6 编程实践：蒙特卡罗学习求解21点游戏的最优策略

5.7 编程实践：构建基于gym的有风的格子世界及个体

5.7.1 gym库简介

5.7.2 状态序列的管理

5.7.3 个体基类的编写

5.8 编程实践：各类学习算法的实现及与有风的格子世界的交互

5.8.1 Sarsa算法

5.8.2 Sarsa(λ)算法

5.8.3 Q学习算法

第6章价值函数的近似表示

6.1 价值近似的意义

6.2 目标函数与梯度下降

6.2.1 目标函数

6.2.2 梯度和梯度下降

6.3 常用的近似价值函数

6.3.1 线性近似

6.3.2 神经网络

6.3.3 卷积神经网络近似

6.4 DQN算法

6.5 编程实践：基于PyTorch实现DQN求解PuckWorld问题

6.5.1 基于神经网络的近似价值函数

6.5.2 实现DQN求解PuckWorld问题

第7章基于策略梯度的深度强化学习

7.1 基于策略学习的意义

7.2 策略目标函数

7.3 Actor-Critic算法

7.4 深度确定性策略梯度算法

7.5 编程实践：DDPG算法实现

7.5.1 连续行为空间的PuckWorld环境

7.5.2 Actor-Critic网络的实现

7.5.3 确定性策略下探索的实现

7.5.4 DDPG算法的实现

7.5.5 DDPG算法在PuckWorld环境中的表现

第8章基于模型的学习和规划

8.1 环境的模型

8.2 整合学习与规划——Dyna算法

8.3 基于模拟的搜索

8.3.1 简单蒙特卡罗搜索

8.3.2 蒙特卡罗树搜索

第9章探索与利用

9.1 多臂游戏机

9.2 常用的探索方法

9.2.1 衰减的ϵ贪婪探索

9.2.2 不确定行为优先探索

9.2.3 基于信息价值的探索

第10章 Alpha Zero算法实战

10.1 自博弈中的蒙特卡罗树搜索

10.2 模型评估中的蒙特卡罗搜索

10.3 策略价值网络结构及策略提升

10.4 编程实践：Alpha Zero算法在五子棋上的实现

10.4.1 从零开始搭建棋盘环境

10.4.2 搭建两种MCTS以实现Alpha Zero自博弈与模型评估

10.4.3 搭建策略价值网络并进行策略提升

10.4.4 训练自己的Alpha Zero模型

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

AI效率手册:从ChatGPT开启*能

AI效率手册:从ChatGPT开启*能￥51.07

常青著

￥51.07

02

AI帮你赢

AI帮你赢￥44.67

谭少卿著

￥44.67

03

ChatGPT+AI文案写作实战108招

ChatGPT+AI文案写作实战108招￥55.86

苏海

￥55.86

04

大模型导论

大模型导论￥44.67

张成文编著

￥44.67

05

AI时代,学什么,怎么学

AI时代,学什么,怎么学￥34.90

和渊著

￥34.90

06

文心一言:人人都能上手的AI工具

文心一言:人人都能上手的AI工具￥45.00

麓山AI研习社编著

￥45.00

07

万物皆计算:科学奇才的探索之旅

万物皆计算:科学奇才的探索之旅￥64.90

[美]斯蒂芬·沃尔弗拉姆(Stephen Wolfram) 著

￥64.90

08

人工智能和深度学习导论

人工智能和深度学习导论￥44.67

[美] 奥斯瓦尔德·坎佩萨托(Oswald Campesato ) 著

￥44.67

09

程序员的算法趣题2

程序员的算法趣题2 ￥34.90

[日]增井敏克著

￥34.90

10

AI助理:用ChatGPT轻松搞定工作

AI助理:用ChatGPT轻松搞定工作￥34.90

杜雨,刁盛鑫著

￥34.90

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当读书5.0问答

意见反馈

Copyright (C) 当当网 2004-2021, All Rights Reserved

京ICP备17043473号-1|出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书