万本电子书0元读

万本电子书0元读

顶部广告

白话强化学习与PyTorch电子书

用简单的例子帮你理解复杂的强化学习概念,用幽默的语言帮你迈过强化学习的门槛。 对深度学习和强化学习的初学者及工程实践人员来说,本书是知识框架搭建和工程门方面的优秀参考书。

售       价:¥

纸质售价:¥68.30购买纸书

142人正在读 | 0人评论 6.2

作       者:高扬,叶振斌

出  版  社:电子工业出版社

出版时间:2019-09-01

字       数:32.3万

所属分类:

温馨提示:此类商品不支持退换货,不支持下载打印

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书以“平民”的起,从“零”始,基于PyTorch框架,介绍深度学习和强化学习的技术与技巧,逐层铺垫,营造良好的带感和亲近感,把学习曲线拉平,使得没有学过微积分等高级理论的程序员一样能够读得懂、学得会。同时,本书配合漫画插图来调节阅读气氛,并对每个原理都行了对比讲解和实例说明。本书适合对深度学习和强化学习感兴趣的技术人员、希望对深度学习和强化学习行门了解的技术人员及深度学习和强化学习领域的初级从业人员阅读。 本书以“平民”的起,从“零”始,基于PyTorch框架,介绍深度学习和强化学习的技术与技巧,逐层铺垫,营造良好的带感和亲近感,把学习曲线拉平,使得没有学过微积分等高级理论的程序员一样能够读得懂、学得会。同时,本书配合漫画插图来调节阅读气氛,并对每个原理都行了对比讲解和实例说明。本书适合对深度学习和强化学习感兴趣的技术人员、希望对深度学习和强化学习行门了解的技术人员及深度学习和强化学习领域的初级从业人员阅读。
【推荐语】
用简单的例子帮你理解复杂的强化学习概念,用幽默的语言帮你迈过强化学习的门槛。 对深度学习和强化学习的初学者及工程实践人员来说,本书是知识框架搭建和工程门方面的优秀参考书。
【作者】
高扬,金山办公软件人工智能组技术负责人,历任欢聚时代人工智能算法专家,金山软件西山居大数据架构师等职。重庆工商大学研究生导师,电子工业出版社博文视大数据技术图书专家委员会专家委员,有多年海外工作经验。有多部“白话”系列大数据与机器学习相关著作。叶振斌,现任网易游戏伏羲人工智能实验室高级深度学习研发工程师。多年从事机器学习,特别是强化学习智能算法的研究及发工作。拥有丰富的软件发经验,以及丰富的人工智能算法训练平台发经验。万娟,华为设计师。资深UI设计师,多年产品交互与视觉设计经验,对于TOB企业系统应用设计与TOC用户产品设计有深的理解与实践。多次参与华为企业内系统设计与智能家居、智能设备等UI及交互设计。从小热爱艺术绘画,多次参与全国艺术与工业设计比赛并获得奖项。对商业插画有丰富的经验,配合出版多本书籍。
目录展开

书名页

内容简介

版权页

前言

传统篇

第1章 强化学习是什么

1.1 题设

1.1.1 多智能才叫智能

1.1.2 人工智能的定义

1.2 强化学习的研究对象

1.2.1 强化学习的应用场合

1.2.2 强化学习的建模

1.3 本章小结

第2章 强化学习的脉络

2.1 什么是策略

2.2 什么样的策略是好的策略

2.3 什么是模型

2.4 如何得到一个好的策略

2.4.1 直接法

2.4.2 间接法

2.5 马尔可夫决策过程

2.5.1 状态转移

2.5.2 策略与评价

2.5.3 策略优化

2.6 Model-Based和Model-Free

2.6.1 Model-Based

2.6.2 规划问题

2.6.3 Model-Free

2.7 本章小结

第3章 动态规划

3.1 状态估值

3.2 策略优化

3.3 本章小结

第4章 蒙特卡罗法

4.1 历史由来

4.2 状态估值

4.3 两种估值方法

4.3.1 首次访问蒙特卡罗策略估值

4.3.2 每次访问蒙特卡罗策略估值

4.3.3 增量平均

4.4 弊端

4.5 本章小结

第5章 时间差分

5.1 SARSA算法

5.1.1 SARSA算法的伪代码

5.1.2 SARSA算法的优点和缺点

5.2 Q-Learning算法

5.2.1 Q-Learning算法的伪代码

5.2.2 Q-Learning算法的优点和缺点

5.3 On-Policy和Off-Policy

5.4 On-Line学习和Off-Line学习

5.5 比较与讨论

5.6 本章小结

现代篇

第6章 深度学习

6.1 PyTorch简介

6.1.1 历史渊源

6.1.2 支持

6.2 神经元

6.3 线性回归

6.4 激励函数

6.4.1 Sigmoid函数

6.4.2 Tanh函数

6.4.3 ReLU函数

6.4.4 Linear函数

6.5 神经网络

6.6 网络训练

6.6.1 输入

6.6.2 输出

6.6.3 网络结构

6.6.4 损失函数

6.6.5 求解极小值

6.6.6 线性回归

6.6.7 凸函数

6.6.8 二元(多元)凸函数

6.6.9 导数补充

6.6.10 导数怎么求

6.6.11 “串联”的神经元

6.6.12 模型的工作

6.6.13 理解损失函数

6.7 深度学习的优势

6.7.1 线性和非线性的叠加

6.7.2 不用再提取特征

6.7.3 处理线性不可分

6.8 手写数字识别公开数据集

6.9 全连接网络

6.9.1 输入与输出

6.9.2 代码解读

6.9.3 运行结果

6.10 卷积神经网络

6.10.1 代码解读

6.10.2 理解卷积神经网络的结构

6.10.3 卷积核的结构

6.11 循环神经网络

6.11.1 网络结构

6.11.2 应用案例

6.11.3 代码解读

6.12 其他注意事项

6.12.1 并行计算

6.12.2 梯度消失和梯度爆炸

6.12.3 归一化

6.12.4 超参数的设置

6.12.5 正则化

6.12.6 不唯一的模型

6.13 深度神经网络的发展趋势

6.14 本章小结

第7章 Gym——不要钱的试验场

7.1 简介

7.2 安装

7.3 类别

7.4 接口

7.5 本章小结

第8章 DQN算法族

8.1 2013版DQN

8.1.1 模型结构

8.1.2 训练过程

8.1.3 Replay Memory

8.1.4 小结

8.2 2015版DQN

8.2.1 模型结构

8.2.2 训练过程

8.2.3 Target网络

8.2.4 小结

8.3 Double DQN

8.3.1 模型结构

8.3.2 训练过程

8.3.3 效果

8.3.4 小结

8.4 Dueling DQN

8.4.1 模型结构

8.4.2 效果

8.4.3 小结

8.5 优先回放DQN

8.6 本章小结

第9章 PG算法族

9.1 策略梯度

9.2 DPG

9.3 Actor-Critic

9.4 DDPG

9.5 本章小结

第10章 A3C

10.1 模型结构

10.1.1 A3C Q-Learning

10.1.2 A3C Actor-Critic

10.2 本章小结

第11章 UNREAL

11.1 主任务

11.2 像素控制任务

11.3 奖励值预测

11.4 值函数回放

11.5 损失函数

11.6 本章小结

扩展篇

第12章 NEAT

12.1 遗传算法

12.1.1 进化过程

12.1.2 算法流程

12.1.3 背包问题

12.1.4 极大(小)值问题

12.2 NEAT原理

12.2.1 基因组

12.2.2 变异和遗传

12.3 NEAT示例

12.4 本章小结

第13章 SerpentAI

13.1 简介

13.2 安装和配置

13.3 示例

13.3.1 创建Game Plugin

13.3.2 创建Game Agent

13.3.3 训练Context Classifier

13.3.4 训练Agent

13.4 本章小结

第14章 案例详解

14.1 AlphaGo

14.1.1 AlphaGo的前世今生

14.1.2 “深蓝”是谁

14.1.3 围棋到底有多复杂

14.1.4 论文要义

14.1.5 成绩

14.1.6 开源项目

14.2 AlphaGo Zero

14.2.1 改进之处

14.2.2 成绩

14.2.3 开源项目

14.3 试验场大观

14.3.1 StarCraftⅡ

14.3.2 VizDoom

14.3.3 Universe

14.3.4 DOTA2

14.4 本章小结

第15章 扩展讨论

15.1 TRPO

15.2 反向强化学习

15.3 模型压缩

15.3.1 剪枝

15.3.2 量化

15.3.3 结构压缩

15.4 本章小结

后记

附录A

A.1 安装Ubuntu

A.2 安装CUDA环境

A.3 安装PyTorch

A.4 下载本书示例代码

A.5 安装PyCharm

A.5.1 方法一

A.5.2 方法二

A.6 安装Jupyter Notebook

A.7 安装相关Python依赖包

A.7.1 安装Box2D

A.7.2 安装MuJoCo

A.7.3 安装SerpentAI

A.7.4 安装Spritex

A.7.5 安装StarCraftⅡ

A.7.6 安装VizDoom

A.8 安装OpenCV

A.9 Python语言简介

A.9.1 安装Python

A.9.2 Hello World

A.9.3 行与缩进

A.9.4 变量类型

A.9.5 循环语句

A.9.6 函数

A.9.7 模块

A.9.8 小结

A.10 本书涉及的主要开源软件版本

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部