科技
类型
6.6
豆瓣评分
可以朗读
语音朗读
128千字
字数
2023-08-01
发行日期
展开全部
主编推荐语
一本了解扩散模型从原理到实战。
内容简介
AIGC的应用领域日益广泛,而在图像生成领域,扩散模型则是AIGC技术的一个重要应用。本书以扩散模型理论知识为切入点,由浅入深地介绍了扩散模型的相关知识,并以大量生动有趣的实战案例帮助读者理解扩散模型的相关细节。
全书共8章,详细介绍了扩散模型的原理,以及扩散模型退化、采样、DDIM反转等重要概念与方法,此外还介绍了StableDiffusion、ControlNet与音频扩散模型等内容。最后,附录提供由扩散模型生成的高质量图像集以及HuggingFace社区的相关资源。
本书既适合所有对扩散模型感兴趣的AI研究人员、相关科研人员以及在工作中有绘图需求的从业人员阅读,也可以作为计算机等相关专业学生的参考书。
目录
- 版权信息
- 内容提要
- 大咖推荐
- 前言
- 致谢
- 资源与支持
- 第1章 扩散模型简介
- 1.1 扩散模型的原理
- 1.1.1 生成模型
- 1.1.2 扩散过程
- 1.2 扩散模型的发展
- 1.2.1 开始扩散:基础扩散模型的提出与改进
- 1.2.2 加速生成:采样器
- 1.2.3 刷新纪录:基于显式分类器引导的扩散模型
- 1.2.4 引爆网络:基于CLIP的多模态图像生成
- 1.2.5 再次“出圈”:大模型的“再学习”方法——DreamBooth、LoRA和ControlNet
- 1.2.6 开启AI作画时代:众多商业公司提出成熟的图像生成解决方案
- 1.3 扩散模型的应用
- 1.3.1 计算机视觉
- 1.3.2 时序数据预测
- 1.3.3 自然语言
- 1.3.4 基于文本的多模态
- 1.3.5 AI基础科学
- 第2章 Hugging Face简介
- 2.1 Hugging Face核心功能介绍
- 2.2 Hugging Face开源库
- 2.3 Gradio工具介绍
- 第3章 从零开始搭建扩散模型
- 3.1 环境准备
- 3.1.1 环境的创建与导入
- 3.1.2 数据集测试
- 3.2 扩散模型之退化过程
- 3.3 扩散模型之训练
- 3.3.1 UNet网络
- 3.3.2 开始训练模型
- 3.4 扩散模型之采样过程
- 3.4.1 采样过程
- 3.4.2 与DDPM的区别
- 3.4.3 UNet2DModel模型
- 3.5 扩散模型之退化过程示例
- 3.5.1 退化过程
- 3.5.2 最终的训练目标
- 3.6 拓展知识
- 3.6.1 时间步的调节
- 3.6.2 采样(取样)的关键问题
- 3.7 本章小结
- 第4章 Diffusers实战
- 4.1 环境准备
- 4.1.1 安装Diffusers库
- 4.1.2 DreamBooth
- 4.1.3 Diffusers核心API
- 4.2 实战:生成美丽的蝴蝶图像
- 4.2.1 下载蝴蝶图像集
- 4.2.2 扩散模型之调度器
- 4.2.3 定义扩散模型
- 4.2.4 创建扩散模型训练循环
- 4.2.5 图像的生成
- 4.3 拓展知识
- 4.3.1 将模型上传到Hugging Face Hub
- 4.3.2 使用Accelerate库扩大训练模型的规模
- 4.4 本章小结
- 第5章 微调和引导
- 5.1 环境准备
- 5.2 载入一个预训练过的管线
- 5.3 DDIM——更快的采样过程
- 5.4 扩散模型之微调
- 5.4.1 实战:微调
- 5.4.2 使用一个最小化示例程序来微调模型
- 5.4.3 保存和载入微调过的管线
- 5.5 扩散模型之引导
- 5.5.1 实战:引导
- 5.5.2 CLIP引导
- 5.6 分享你的自定义采样训练
- 5.7 实战:创建一个类别条件扩散模型
- 5.7.1 配置和数据准备
- 5.7.2 创建一个以类别为条件的UNet模型
- 5.7.3 训练和采样
- 5.8 本章小结
- 第6章 Stable Diffusion
- 6.1 基本概念
- 6.1.1 隐式扩散
- 6.1.2 以文本为生成条件
- 6.1.3 无分类器引导
- 6.1.4 其他类型的条件生成模型:Img2Img、Inpainting与Depth2Img模型
- 6.1.5 使用DreamBooth进行微调
- 6.2 环境准备
- 6.3 从文本生成图像
- 6.4 Stable Diffusion Pipeline
- 6.4.1 可变分自编码器
- 6.4.2 分词器和文本编码器
- 6.4.3 UNet
- 6.4.4 调度器
- 6.4.5 DIY采样循环
- 6.5 其他管线介绍
- 6.5.1 Img2Img
- 6.5.2 Inpainting
- 6.5.3 Depth2Image
- 6.6 本章小结
- 第7章 DDIM反转
- 7.1 实战:反转
- 7.1.1 配置
- 7.1.2 载入一个预训练过的管线
- 7.1.3 DDIM采样
- 7.1.4 反转
- 7.2 组合封装
- 7.3 ControlNet的结构与训练过程
- 7.4 ControlNet示例
- 7.4.1 ControlNet与Canny Edge
- 7.4.2 ControlNet与M-LSD Lines
- 7.4.3 ControlNet与HED Boundary
- 7.4.4 ControlNet与涂鸦画
- 7.4.5 ControlNet与人体关键点
- 7.4.6 ControlNet与语义分割
- 7.5 ControlNet实战
- 7.6 本章小结
- 第8章 音频扩散模型
- 8.1 实战:音频扩散模型
- 8.1.1 设置与导入
- 8.1.2 从预训练的音频扩散模型管线中进行采样
- 8.1.3 从音频到频谱的转换
- 8.1.4 微调管线
- 8.1.5 训练循环
- 8.2 将模型上传到Hugging Face Hub
- 8.3 本章小结
- 附录A 精美图像集展示
- 附录B Hugging Face相关资源
- B.1 学习资源
- B.2 保持联络
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。