当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > 生成对抗网络GAN:原理与实践

生成对抗网络GAN:原理与实践电子书

（1）作者经验丰富：作者曾在奇虎360人工智能研究院、陌陌深度学习实验室等工作多年，负责月活10亿级的产品。（2）作者知名度高：作者创办“有三AI”社区，有超过10万学员；著有5本深度学习方面的畅销书，发表原创技术文章200余万字。（3）理论体系完善：系统讲解GAN的理论、各种模型和常见问题，其中GAN的目标优化、训练、评估等内容同类书中极少提及。（4）实战案例丰富：9个综合案例，覆盖视觉和语音方面的8大应用场景，提供解决方案、案例代码、实验数据和实验结果对比分析。

售价：¥

纸质售价：¥74.20购买纸书

20人正在读 | 0人评论

6.5

作者：言有三,郭晓洲

出版社：机械工业出版社

出版时间：2022-10-17

字数：18.9万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

这是一本系统讲解GAN理论、模型、常见问题，并为视觉和语音领域的大部分应用场景提供GAN解决方案和综合实例的著作。作者在人工智能领域积累颇深，这本书得到了前阿里巴巴达摩院华先胜和中国科学院自动化所刘成林的推荐。前4章有针对性地讲解GAN的理论，帮助读者夯实基础；后8章讲解应用，用大量经典的模型和9个案例，为8个应用场景提供了GAN解决方案。第1~4章首先介绍了无监督生成模型、显式生成模型、以GAN为代表的隐式生成模型等各种生成模型的理论和原理；然后讲解了GAN中的目标函数及其数学原理、GAN在训练中的常见问题和相应解决方案、GAN的评价指标和可视化等；第5~12章分别讲解了图像生成GAN的各类模型与应用、图像翻译GAN的各类模型与应用、人脸图像编辑GAN的各类模型与应用、图像质量增强GAN的各类模型与应用、三维图片与视频生成GAN的各类模型与应用、通用的图像编辑GAN框架、对抗攻以及GAN在其中的应用、GAN在语音信号处理中的实战应用。全书内容理论体系完善，GAN的目标优化、训练、评估等内容同类书中极少提及；内容丰富、循序渐，覆盖视觉和语音中的绝大部分应用场景；实战性强，9个综合案例，提供案例源代码和解读，以及实验数据和实验结果对比分析；图文并茂，包含大量原创图表，可读性强。<br/>【推荐语】<br/>（1）作者经验丰富：作者曾在奇虎360人工智能研究院、陌陌深度学习实验室等工作多年，负责月活10亿级的产品。（2）作者知名度高：作者创办“有三AI”社区，有超过10万学员；著有5本深度学习方面的畅销书，发表原创技术文章200余万字。（3）理论体系完善：系统讲解GAN的理论、各种模型和常见问题，其中GAN的目标优化、训练、评估等内容同类书中极少提及。（4）实战案例丰富：9个综合案例，覆盖视觉和语音方面的8大应用场景，提供解决方案、案例代码、实验数据和实验结果对比分析。（5）阅读体验：内容循序渐、深浅出，包含大量原创插图，极大程度降低阅读难度。<br/>

目录展开

版权页

前言

第1章生成模型

1.1 无监督学习与生成模型

1.1.1 监督学习与无监督学习

1.1.2 判别模型与生成模型

1.1.3 无监督生成模型

1.2 显式与隐式生成模型

1.2.1 极大似然估计法

1.2.2 完全可见置信网络

1.2.3 流模型

1.2.4 变分自编码器

1.2.5 玻尔兹曼机

1.2.6 隐式生成模型

参考文献

第2章目标函数优化

2.1 GAN

2.1.1 GAN概述

2.1.2 GAN模型

2.1.3 GAN的本质

2.2 LSGAN

2.3 EBGAN

2.4 fGAN

2.5 WGAN

2.5.1 分布度量

2.5.2 WGAN目标函数

2.6 Loss-sensitive GAN

2.7 WGAN-GP

2.8 IPM

2.8.1 IPM概念

2.8.2 基于IPM的GAN

2.8.3 IPM与f散度

2.9 其他目标函数

2.9.1 RGAN

2.9.2 BEGAN

参考文献

第3章训练技巧

3.1 GAN训练的3个问题

3.1.1 梯度消失

3.1.2 目标函数不稳定性

3.1.3 模式崩溃

3.2 退火噪声

3.3 谱正则化

3.3.1 特征值与奇异值

3.3.2 谱范数与1-Lipschitz限制

3.4 一致优化

3.4.1 欧拉法

3.4.2 GAN动力学系统

3.4.3 一致优化算法

3.5 GAN训练技巧

3.5.1 特征匹配

3.5.2 历史均值

3.5.3 单侧标签平滑

3.5.4 虚拟批正则化

3.5.5 TTUR

3.5.6 0中心梯度

3.5.7 其他建议

3.6 模式崩溃解决方案

3.6.1 unrolledGAN

3.6.2 DRAGAN

3.6.3 Minibatch判别器与PGGAN

3.6.4 MADGAN与MADGAN-Sim

3.6.5 VVEGAN

参考文献

第4章评价指标与可视化

4.1 评价指标

4.1.1 评价指标的要求

4.1.2 IS系列

4.1.3 FID

4.1.4 MMD

4.1.5 Wasserstein距离

4.1.6 最近邻分类器

4.1.7 GANtrain与GANtest

4.1.8 NRDS

4.1.9 图像质量度量

4.1.10 平均似然值

4.2 GAN可视化

4.2.1 设置模型

4.2.2 训练模型

4.2.3 可视化数据

4.2.4 样例演示

参考文献

第5章图像生成

5.1 图像生成应用

5.1.1 训练数据扩充

5.1.2 数据质量提升

5.1.3 内容创作

5.2 深度卷积GAN

5.2.1 DCGAN原理

5.2.2 DCGAN的思考

5.3 条件GAN

5.3.1 有监督条件GAN

5.3.2 无监督条件GAN

5.3.3 半监督条件GAN

5.3.4 复杂形式的条件输入

5.4 多尺度GAN

5.4.1 LAPGAN

5.4.2 Progressive GAN

5.5 属性GAN

5.5.1 显式属性GAN

5.5.2 隐式属性GAN

5.6 多判别器与生成器GAN

5.6.1 多判别器GAN

5.6.2 多生成器GAN

5.7 数据增强与仿真GAN

5.7.1 数据增强GAN

5.7.2 数据仿真GAN

5.8 DCGAN图像生成实践

5.8.1 项目解读

5.8.2 实验结果

5.9 StyleGAN人脸图像生成实践

5.9.1 项目简介

5.9.2 模型解读

5.9.3 预训练模型的使用

5.9.4 小结

参考文献

第6章图像翻译

6.1 图像翻译基础

6.1.1 什么是图像翻译

6.1.2 图像翻译任务的类型

6.2 有监督图像翻译模型

6.2.1 Pix2Pix

6.2.2 Pix2PixHD

6.2.3 Vid2Vid

6.3 无监督图像翻译模型

6.3.1 基于域迁移与域对齐的无监督模型

6.3.2 基于循环一致性约束的无监督模型

6.4 图像翻译模型的关键改进

6.4.1 多领域转换网络StarGAN

6.4.2 丰富图像翻译模型的生成模式

6.4.3 给模型添加监督信息

6.5 基于Pix2Pix模型的图像上色实践

6.5.1 数据处理

6.5.2 模型代码解读

6.5.3 模型训练与测试

6.5.4 小结

参考文献

第7章人脸图像编辑

7.1 人脸表情编辑

7.1.1 表情编辑问题

7.1.2 关键点控制的表情编辑模型

7.2 人脸年龄编辑

7.2.1 年龄编辑问题

7.2.2 基于潜在空间的条件对抗自编码模型

7.3 人脸姿态编辑

7.3.1 姿态编辑问题

7.3.2 基于3DMM的姿态编辑模型

7.4 人脸风格编辑

7.4.1 风格编辑问题

7.4.2 基于注意力机制的风格化模型

7.5 人脸妆造编辑

7.5.1 妆造编辑问题

7.5.2 基于GAN的妆造迁移算法

7.6 人脸换脸编辑

7.6.1 身份编辑问题

7.6.2 基于编解码器的Deepfakes换脸算法

7.7 通用的人脸属性编辑

7.7.1 StyleGAN人脸编辑的关键问题

7.7.2 潜在编码向量的求解

7.8 基于StyleGAN模型的人脸属性编辑实践

7.8.1 人脸重建

7.8.2 人脸属性混合与插值

7.8.3 人脸属性编辑

7.8.4 小结

参考文献

第8章图像质量增强

8.1 图像降噪

8.1.1 图像降噪问题

8.1.2 基于GAN的图像去噪框架

8.2 图像去模糊

8.2.1 图像去模糊问题

8.2.2 基于GAN的图像去模糊框架

8.3 图像色调映射

8.3.1 图像色调映射问题

8.3.2 图像色调映射数据集

8.3.3 基于GAN的图像色调映射框架

8.4 图像超分辨

8.4.1 图像超分辨问题

8.4.2 基于GAN的图像超分辨框架

8.5 图像修复

8.5.1 图像修复基础

8.5.2 基于GAN的图像修复框架

8.6 基于SRGAN的人脸超分重建实践

8.6.1 项目解读

8.6.2 模型训练

8.6.3 模型测试

8.6.4 小结

参考文献

第9章三维图像与视频生成

9.1 三维图像与视频生成应用

9.1.1 三维图像生成应用

9.1.2 视频生成与预测应用

9.2 三维图像生成框架

9.2.1 一般三维图像生成框架

9.2.2 二维图到三维图的预测框架

9.3 视频生成与预测框架

9.3.1 基本的Video-GAN

9.3.2 多阶段的MD-GAN

9.3.3 内容动作分离的MoCoGAN

参考文献

第10章通用图像编辑

10.1 图像深度编辑

10.1.1 深度与景深

10.1.2 图像景深编辑框架

10.2 图像融合

10.2.1 图像融合问题

10.2.2 基于GAN的图像融合框架

10.3 交互式图像编辑

10.3.1 交互式图像编辑框架

10.3.2 基于GAN的交互式图像编辑框架

10.4 展望

参考文献

第11章对抗攻击

11.1 对抗攻击及防御算法

11.1.1 对抗攻击概述

11.1.2 常用攻击算法

11.1.3 常用防御算法

11.2 基于GAN的对抗样本生成

11.2.1 Perceptual-Sensitive GAN

11.2.2 Natural GAN

11.2.3 AdvGAN

11.3 基于GAN的对抗攻击防御

11.3.1 APEGAN

11.3.2 DefenseGAN

11.4 对抗攻击工具包AdvBox

11.4.1 对分类器的攻击

11.4.2 高斯噪声对抗防御

11.4.3 其他示例程序

参考文献

第12章语音信号处理

12.1 基于GAN的语音增强

12.1.1 项目简介

12.1.2 SEGAN模型

12.1.3 SEGAN训练和测试

12.2 基于GAN的语音转换

12.2.1 项目简介

12.2.2 WORLD语音合成工具

12.2.3 CycleGAN-VC2模型

12.2.4 CycleGAN-VC2训练

12.2.5 CycleGAN-VC2测试

12.3 基于GAN的语音生成

12.3.1 项目简介

12.3.2 WaveGAN模型

12.3.3 WaveGAN训练和测试

参考文献

后折页

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

Excel大神是怎么做表的￥45.00

吉田拳

￥45.00

巧用ChatGPT进行数据分析与挖掘￥59.00

谢佳标

￥59.00

人形机器人(原书第2版) ￥47.00

(日)梶田秀司(Shuuji Kajita)

￥47.00

你好!Python ￥60.00

关东升

￥60.00

DeepSeek:打开财富密码￥47.60

陈根

￥47.60

一本书读懂大模型:技术创新、商业应用与产业变革￥59.00

中国电信天翼智库大模型研究团队

￥59.00

速学Linux:系统应用从入门到精通￥60.00

良许

￥60.00

更多同类图书 >