欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 科技 > 计算机/网络 > 多媒体/数据通信 > 统计策略搜索强化学习方法及应用

统计策略搜索强化学习方法及应用

| | 手机阅读

扫描下载当当云阅读App

统计策略搜索强化学习方法及应用电子书

暂无

售价：¥

纸质售价：¥58.80购买纸书

43人正在读 | 0人评论

6.2

作者：赵婷婷

出版社：电子工业出版社

出版时间：2021-09-01

字数：11.3万

所属分类：科技 > 计算机/网络 > 多媒体/数据通信

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

智能体AlphaGo战胜人类围棋专家刷新了人类对人工智能的认识，也使得其核心技术强化学习受到学术界的广泛关注。本书正是在如此背景下，围绕作者多年从事强化学习理论及应用的研究内容及国内外关于强化学习的近动态等方面展介绍，是为数不多的强化学习领域的专业著作。该著作侧重于基于直策略搜索的强化学习方法，结合了统计学习的诸多方法对相关技术及方法行分析、改及应用。本书以一个全新的现代角度描述策略搜索强化学习算法。从不同的强化学习场景出发，讲述了强化学习在实际应用中所面临的诸多难题。针对不同场景，给定具体的策略搜索算法，分析算法中估计量和学习参数的统计特性，并对算法行应用实例展示及定量比较。特别地，本书结合强化学习前沿技术将策略搜索算法应用到机器人控制及数字艺术渲染领域，给人以耳目一新的感觉。后根据作者长期研究经验，对强化学习的发展趋势行了简要介绍和总结。本书取材经典、全面，概念清楚，推导严密，以期形成一个集基础理论、算法和应用为一体的完备知识体系。<br/>【作者】<br/>赵婷婷，天津科技大学人工智能学院副教授，主要研究方向为人工智能、机器学习。中国计算机协会（CCF）会员、YOCSEF 会员、中国人工智能学会会员、人工智能学会模式识别专委会委员，2017年获得天津市"131”创新型人才培养工程第二层次人选称号。<br/>

目录展开

内容简介

第1章强化学习概述

1.1 机器学习中的强化学习

1.2 智能控制中的强化学习

1.3 强化学习分支

1.4 本书贡献

1.5 本书结构

参考文献

第2章相关研究及背景知识

2.1 马尔可夫决策过程

2.2 基于值函数的策略学习算法

2.2.1 值函数

2.2.2 策略迭代和值迭代

2.2.3 Q-learning

2.2.4 基于最小二乘法的策略迭代算法

2.2.5 基于值函数的深度强化学习方法

2.3 策略搜索算法

2.3.1 策略搜索算法建模

2.3.2 传统策略梯度算法（REINFORCE算法）

2.3.3 自然策略梯度方法（Natural Policy Gradient）

2.3.4 期望最大化的策略搜索方法

2.3.5 基于策略的深度强化学习方法

2.4 本章小结

参考文献

第3章策略梯度估计的分析与改进

3.1 研究背景

3.2 基于参数探索的策略梯度算法（PGPE算法）

3.3 梯度估计方差分析

3.4 基于最优基线的算法改进及分析

3.4.1 最优基线的基本思想

3.4.2 PGPE算法的最优基线

3.5 实验结果

3.5.1 示例

3.5.2 倒立摆平衡问题

3.6 总结与讨论

参考文献

第4章基于重要性采样的参数探索策略梯度算法

4.1 研究背景

4.2 异策略场景下的PGPE算法

4.2.1 重要性加权PGPE算法

4.2.2 IW-PGPE算法的最优基线

4.3 实验结果

4.3.1 示例

4.3.2 山地车任务

4.3.3 机器人仿真控制任务

4.4 总结和讨论

参考文献

第5章方差正则化策略梯度算法

5.1 研究背景

5.2 正则化策略梯度算法

5.2.1 目标函数

5.2.2 梯度计算方法

5.3 实验结果

5.3.1 数值示例

5.3.2 山地车任务

5.4 总结和讨论

参考文献

第6章基于参数探索的策略梯度算法的采样技术

6.1 研究背景

6.2 基于参数探索的策略梯度算法中的采样技术

6.2.1 基线采样

6.2.2 最优基线采样

6.2.3 对称采样

6.2.4 超对称采样

6.2.5 多模态超对称采样

6.2.6 SupSymPGPE的奖励归一化

6.3 实验结果

6.3.1 平方函数

6.3.2 Rastrigin函数

6.4 本章总结

参考文献

第7章基于样本有效重用的人形机器人的运动技能学习

7.1 研究背景：真实环境下的运动技能学习

7.2 运动技能学习框架

7.2.1 机器人的运动路径和回报

7.2.2 策略模型

7.2.3 基于PGPE算法的策略学习方法

7.3 有效重用历史经验

7.3.1 基于重要性加权的参数探索策略梯度算法（IW-PGPE算法）

7.3.2 基于IW-PGPE算法的运动技能学习过程

7.3.3 递归型IW-PGPE算法

7.4 虚拟环境中的车杆摆动任务

7.5 篮球射击任务

7.6 讨论与结论

参考文献

第8章基于逆强化学习的艺术风格学习及水墨画渲染

8.1 研究背景

8.1.1 计算机图形学背景

8.1.2 人工智能背景

8.1.3 面向艺术风格化的渲染系统

8.2 基于强化学习的笔刷智能体建模

8.2.1 动作的设计

8.2.2 状态的设计

8.3 离线艺术风格学习阶段

8.3.1 数据采集

8.3.2 基于逆强化学习的奖励函数学习

8.3.3 基于R-PGPE算法的渲染策略学习

8.4 A4系统用户界面

8.5 实验与结果

8.5.1 渲染策略学习结果

8.5.2 基于IRL进行笔画绘制的渲染结果

8.6 本章小结

参考文献

彩插

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

AI艺术极简教程:零基础生成绘画、摄影、设计

AI艺术极简教程:零基础生成绘画、摄影、设计￥22.99

何惠、郭泽德、刘建军著

￥22.99

02

剪映视频剪辑/调色/*从入门到精通(手机版+电脑版)

剪映视频剪辑/调色/*从入门到精通(手机版+电脑版) ￥52.00

麓山剪辑社编著

￥52.00

03

Midjourney AI生图与修图从入门到精通

Midjourney AI生图与修图从入门到精通￥25.99

郑志强

￥25.99

04

剪映视频剪辑完全自学一本通

剪映视频剪辑完全自学一本通￥45.00

卢莉宏董磊唐增煦编著

￥45.00

05

机器学习数学基础

机器学习数学基础￥53.00

齐伟

￥53.00

06

剪映短视频制作完全自学一本通(手机版+电脑版)

剪映短视频制作完全自学一本通(手机版+电脑版) ￥44.50

徐捷;肖兴

￥44.50

07

剪映:短、中、长视频剪辑全攻略(手机版+电脑版)

剪映:短、中、长视频剪辑全攻略(手机版+电脑版) ￥48.86

构图君

￥48.86

08

AI提示工程——基础 ?应用?实例

AI提示工程——基础 ?应用?实例￥55.30

万欣;角志浩;等

￥55.30

09

抠图+修图+调色+合成+*Photoshop核心应用5项修炼(第2版)

抠图+修图+调色+合成+*Photoshop核心应用5项修炼(第2版) ￥57.80

李晓琳编著

￥57.80

10

零基础开发AI Agent——手把手教你用扣子做智能体

零基础开发AI Agent——手把手教你用扣子做智能体￥70.00

叶涛;管锴;等

￥70.00

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当读书5.0问答

意见反馈

Copyright (C) 当当网 2004-2021, All Rights Reserved

京ICP备17043473号-1|出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书