当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > 利用Python驾驭Stable Diffusion:原理解析、扩展开发与高级应用

| | 手机阅读

扫描下载当当云阅读App

利用Python驾驭Stable Diffusion:原理解析、扩展开发与高级应用电子书

本书是利用Python驾驭Stable Diffusion的实用指南，从原理解析到扩展发、高级应用全覆盖。含环境搭建、模型优化、图像生成等内容，附大量实战案例，助读者掌握AI图像生成核心技术，适合AI图像爱好者、发者等。

售价：¥

纸质售价：¥78.50购买纸书

11人正在读 | 0人评论

6.5

作者：(美)安德鲁·朱(Andrew Zhu)

出版社：机械工业出版社

出版时间：2025-05-20

字数：12.9万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书提供了完整的代码和详细的步骤，让读者可以亲自动手实验，在实践中学习和掌握Stable Diffusion。本书内容涵盖了Stable Diffusion的各个方面，从环境搭建到模型优化，从图像生成到视频制作，从LoRA到ControlNet。作者以清晰的思路和通俗易懂的语言，将复杂的理论知识和代码实现娓娓道来，并辅以大量的示例和插图，使读者能够轻松理解和上手。本书还深探讨了Stable Diffusion的一些高级应用，例如图像修复、超分辨率、文本反转、自定义提示词、生成视频、模型微调等，为读者了更广阔的应用空间。本书适合人工智能图像生成爱好者、程序员、数据科学家、机器学习工程师以及研究人员阅读。 【推荐语】 本书是利用Python驾驭Stable Diffusion的实用指南，从原理解析到扩展发、高级应用全覆盖。含环境搭建、模型优化、图像生成等内容，附大量实战案例，助读者掌握AI图像生成核心技术，适合AI图像爱好者、发者等。 【作者】 安德鲁·朱（Andrew Zhu）微软资深应用数据科学家，在科技行业拥有超过15年的经验。Andrew擅长将复杂的机器学习和人工智能概念提炼成引人胜且信息丰富的内容并因此而闻名，他经常为Toward Data Science等知名刊物撰稿。他之前所著的Microsoft Workflow Foundation 4.0 Cookbook在亚马逊上获得了4.5星的好评。作为广受欢迎的Hugging Face Diffusers库（这是一个领先的Stable Diffusion Python库，也是本书的主要聚焦）的贡献者，Andrew展现了卓越的专业能力。目前，他在一家尚未公亮相的初创公司领导人工智能部门，凭借广泛的研究背景以及在生成式AI方面的专业能力，重塑在线物体验，并引领零售业AI的未来。

目录展开

THE TRANSLATOR'S WORDS 译者序

PROLOGUE 序言

PREFACE 前言

ABOUT THE AUTHOR 作者简介

ABOUT THE REVIEWERS 审校者简介

PART 1 第一部分 Stable Diffusion的旋风

CHAPTER 1 第1章 Stable Diffusion介绍

1.1 扩散模型的演变

1.2 为何选择Stable Diffusion

1.3 使用哪一个版本的Stable Diffusion

1.4 为什么选择本书

1.5 参考文献

CHAPTER 2 第2章搭建Stable Diffusion的开发环境

2.1 硬件要求

2.2 软件要求

2.3 运行Stable Diffusion管道

2.4 使用Google Colab

2.5 使用Google Colab运行Stable Diffusion管道

2.6 总结

2.7 参考文献

CHAPTER 3 第3章使用Stable Diffusion生成图像

3.1 登录Hugging Face

3.2 生成图像

3.3 生成器种子

3.4 采样调度器

3.5 更换模型

3.6 引导比例

3.7 总结

3.8 参考文献

CHAPTER 4 第4章理解扩散模型背后的理论

4.1 理解图像到噪声的转换过程

4.2 一种更高效的前向扩散过程

4.3 噪声到图像的训练过程

4.4 噪声到图像的采样过程

4.5 理解分类器引导去噪

4.6 总结

4.7 参考文献

CHAPTER 5 第5章理解Stable Diffusion的工作原理

5.1 潜空间中的Stable Diffusion

5.2 使用diffusers生成潜向量

5.3 使用CLIP生成文本嵌入

5.4 初始化时间步嵌入

5.5 初始化Stable Diffusion的UNet

5.6 实现一个文本到图像的Stable Diffusion推理管道

5.7 实现一个文本引导的图像到图像Stable Diffusion推理管道

5.8 总结

5.9 参考文献

5.10 扩展阅读

CHAPTER 6 第6章使用Stable Diffusion模型

6.1 技术要求

6.2 加载Diffusers模型

6.3 从safetensors和.ckpt文件加载模型的检查点

6.4 在Diffusers中使用.ckpt和safetensors文件

6.5 关闭模型安全检查器

6.6 将检查点模型文件转换为Diffusers格式

6.7 使用Stable Diffusion XL

6.8 总结

6.9 参考文献

PART 2 第二部分通过自定义功能改进扩散模型

CHAPTER 7 第7章优化性能和显存的使用

7.1 设置基线

7.2 优化方案1：使用float16或bfloat16数据类型

7.3 优化方案2：启用VAE平铺

7.4 优化方案3：启用Xformers或使用PyTorch 2.0

7.5 优化方案4：启用顺序CPU卸载

7.6 优化方案5：启用模型CPU卸载

7.7 优化方案6：令牌合并

7.8 总结

7.9 参考文献

CHAPTER 8 第8章使用社区共享的LoRA

8.1 技术要求

8.2 LoRA技术的工作原理

8.3 深入探索LoRA的内部结构

8.4 创建一个加载LoRA的函数

8.5 为什么LoRA有效

8.6 总结

8.7 参考文献

CHAPTER 9 第9章使用文本反转

9.1 使用文本反转进行Diffusers推理

9.2 文本反转的工作原理

9.3 构建一个自定义的文本反转加载器

9.4 总结

9.5 参考文献

CHAPTER 10 第10章破解77个令牌限制和启用提示权重

10.1 理解77个令牌的限制

10.2 突破77个令牌的限制

10.3 启用带权重的长提示

10.4 验证工作

10.5 使用社区管道突破77个令牌的限制

10.6 总结

10.7 参考文献

CHAPTER 11 第11章图像修复和超分辨率

11.1 理解相关术语

11.2 使用图像到图像的扩散技术进行图像放大

11.3 ControlNet分块图像放大

11.4 总结

11.5 参考文献

CHAPTER 12 第12章计划提示解析

12.1 技术要求

12.2 使用Compel包

12.3 构建自定义的计划提示管道

12.4 总结

12.5 参考文献

PART 3 第三部分高级主题

CHAPTER 13 第13章使用ControlNet生成图像

13.1 什么是ControlNet，它有哪些独特之处

13.2 如何使用ControlNet

13.3 在管道中使用多个ControlNet

13.4 ControlNet的工作原理

13.5 ControlNet的更多用法

13.6 总结

13.7 参考文献

CHAPTER 14 第14章使用Stable Diffusion生成视频

14.1 技术要求

14.2 文本到视频生成的原理

14.3 AnimateDiff的实际应用

14.4 使用Motion LoRA控制动画运动

14.5 总结

14.6 参考文献

CHAPTER 15 第15章使用BLIP-2和LLaVA生成图像描述

15.1 技术要求

15.2 BLIP-2——启动语言-图像预训练

15.3 LLaVA——大型语言与视觉助手

15.4 总结

15.5 参考文献

CHAPTER 16 第16章探索Stable Diffusion XL

16.1 Stable Diffusion XL有哪些新变化

16.2 使用Stable Diffusion XL

16.3 总结

16.4 参考文献

CHAPTER 17 第17章 Stable Diffusion提示词优化之道

17.1 什么是好的提示词

17.2 使用LLM生成更好的提示词

17.3 总结

17.4 参考文献

PART 4 第四部分将Stable Diffusion集成到应用中

CHAPTER 18 第18章对象编辑和风格迁移

18.1 使用Stable Diffusion编辑图像

18.2 对象和风格迁移

18.3 总结

18.4 参考文献

CHAPTER 19 第19章生成数据持久化

19.1 探索和理解PNG文件结构

19.2 在PNG图像文件中保存文本数据

19.3 PNG数据存储限制

19.4 总结

19.5 参考文献

CHAPTER 20 第20章创建交互式用户界面

20.1 Gradio介绍

20.2 开始使用Gradio

20.3 Gradio基础知识

20.4 使用Gradio构建一个Stable Diffusion文本到图像管道

20.5 总结

20.6 参考文献

CHAPTER 21 第21章扩散模型的迁移学习

21.1 技术要求

21.2 使用PyTorch训练神经网络模型

21.3 使用Hugging Face的Accelerate训练模型

21.4 训练Stable Diffusion v1.5 LoRA

21.5 总结

21.6 参考文献

CHAPTER 22 第22章 Stable Diffusion与未来

22.1 这波人工智能浪潮有何不同

22.2 数学和编程的持久价值

22.3 跟上人工智能创新的步伐

22.4 构建负责任、遵守道德、保护隐私和安全的人工智能

22.5 我们与人工智能不断演变的关系

22.6 总结

22.7 参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

DeepSeek硬核技术解读￥59.00

刘丹;尹俊希;杨院伶

￥59.00

豆包*学习:AI 辅助中小学生学习的方法与技巧￥47.00

薛碧芸;郭泽德

￥47.00

精通Excel数据统计与分析￥57.54

李宗璋著

￥57.54

更多同类图书 >

利用Python驾驭Stable Diffusion:原理解析、扩展开发与高级应用电子书

支持设备

豆包使用秘笈:从入门到精通的100个实用技巧￥53.00

豆包从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥47.00

千问从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥35.00

学会提问,驾驭AI:提示词从入门到精通￥61.60

OpenClaw实战指南:零基础打造会干活的AI数字员工￥79.00

腾讯元宝使用秘笈:从入门到精通的100个实用技巧￥53.00