科技
类型
可以朗读
语音朗读
188千字
字数
2022-10-01
发行日期
展开全部
主编推荐语
资深人工智能专家撰写,系统讲解GAN理论、模型与常见问题。
内容简介
本书是一本系统讲解GAN理论、模型、常见问题,并为视觉和语音领域的大部分应用场景提供GAN解决方案和综合实例的著作。
作者在人工智能领域积累颇深,本书得到了前阿里巴巴达摩院华先胜和中国科学院自动化所刘成林的推荐。前4章有针对性地讲解GAN的理论,帮助读者夯实基础;后8章讲解应用,用大量经典的模型和9个案例,为8个应用场景提供了GAN解决方案。
全书内容理论体系完善,GAN的目标优化、训练、评估等内容同类书中极少提及;内容丰富、循序渐进,覆盖视觉和语音中的绝大部分应用场景;实战性强,9个综合案例,提供案例源代码和解读,以及实验数据和实验结果对比分析;图文并茂,包含大量原创图表,可读性强。
目录
- 版权信息
- 前言
- 第1章 生成模型
- 1.1 无监督学习与生成模型
- 1.1.1 监督学习与无监督学习
- 1.1.2 判别模型与生成模型
- 1.1.3 无监督生成模型
- 1.2 显式与隐式生成模型
- 1.2.1 极大似然估计法
- 1.2.2 完全可见置信网络
- 1.2.3 流模型
- 1.2.4 变分自编码器
- 1.2.5 玻尔兹曼机
- 1.2.6 隐式生成模型
- 参考文献
- 第2章 目标函数优化
- 2.1 GAN
- 2.1.1 GAN概述
- 2.1.2 GAN模型
- 2.1.3 GAN的本质
- 2.2 LSGAN
- 2.3 EBGAN
- 2.4 fGAN
- 2.5 WGAN
- 2.5.1 分布度量
- 2.5.2 WGAN目标函数
- 2.6 Loss-sensitive GAN
- 2.7 WGAN-GP
- 2.8 IPM
- 2.8.1 IPM概念
- 2.8.2 基于IPM的GAN
- 2.8.3 IPM与f散度
- 2.9 其他目标函数
- 2.9.1 RGAN
- 2.9.2 BEGAN
- 参考文献
- 第3章 训练技巧
- 3.1 GAN训练的3个问题
- 3.1.1 梯度消失
- 3.1.2 目标函数不稳定性
- 3.1.3 模式崩溃
- 3.2 退火噪声
- 3.3 谱正则化
- 3.3.1 特征值与奇异值
- 3.3.2 谱范数与1-Lipschitz限制
- 3.4 一致优化
- 3.4.1 欧拉法
- 3.4.2 GAN动力学系统
- 3.4.3 一致优化算法
- 3.5 GAN训练技巧
- 3.5.1 特征匹配
- 3.5.2 历史均值
- 3.5.3 单侧标签平滑
- 3.5.4 虚拟批正则化
- 3.5.5 TTUR
- 3.5.6 0中心梯度
- 3.5.7 其他建议
- 3.6 模式崩溃解决方案
- 3.6.1 unrolledGAN
- 3.6.2 DRAGAN
- 3.6.3 Minibatch判别器与PGGAN
- 3.6.4 MADGAN与MADGAN-Sim
- 3.6.5 VVEGAN
- 参考文献
- 第4章 评价指标与可视化
- 4.1 评价指标
- 4.1.1 评价指标的要求
- 4.1.2 IS系列
- 4.1.3 FID
- 4.1.4 MMD
- 4.1.5 Wasserstein距离
- 4.1.6 最近邻分类器
- 4.1.7 GANtrain与GANtest
- 4.1.8 NRDS
- 4.1.9 图像质量度量
- 4.1.10 平均似然值
- 4.2 GAN可视化
- 4.2.1 设置模型
- 4.2.2 训练模型
- 4.2.3 可视化数据
- 4.2.4 样例演示
- 参考文献
- 第5章 图像生成
- 5.1 图像生成应用
- 5.1.1 训练数据扩充
- 5.1.2 数据质量提升
- 5.1.3 内容创作
- 5.2 深度卷积GAN
- 5.2.1 DCGAN原理
- 5.2.2 DCGAN的思考
- 5.3 条件GAN
- 5.3.1 有监督条件GAN
- 5.3.2 无监督条件GAN
- 5.3.3 半监督条件GAN
- 5.3.4 复杂形式的条件输入
- 5.4 多尺度GAN
- 5.4.1 LAPGAN
- 5.4.2 Progressive GAN
- 5.5 属性GAN
- 5.5.1 显式属性GAN
- 5.5.2 隐式属性GAN
- 5.6 多判别器与生成器GAN
- 5.6.1 多判别器GAN
- 5.6.2 多生成器GAN
- 5.7 数据增强与仿真GAN
- 5.7.1 数据增强GAN
- 5.7.2 数据仿真GAN
- 5.8 DCGAN图像生成实践
- 5.8.1 项目解读
- 5.8.2 实验结果
- 5.9 StyleGAN人脸图像生成实践
- 5.9.1 项目简介
- 5.9.2 模型解读
- 5.9.3 预训练模型的使用
- 5.9.4 小结
- 参考文献
- 第6章 图像翻译
- 6.1 图像翻译基础
- 6.1.1 什么是图像翻译
- 6.1.2 图像翻译任务的类型
- 6.2 有监督图像翻译模型
- 6.2.1 Pix2Pix
- 6.2.2 Pix2PixHD
- 6.2.3 Vid2Vid
- 6.3 无监督图像翻译模型
- 6.3.1 基于域迁移与域对齐的无监督模型
- 6.3.2 基于循环一致性约束的无监督模型
- 6.4 图像翻译模型的关键改进
- 6.4.1 多领域转换网络StarGAN
- 6.4.2 丰富图像翻译模型的生成模式
- 6.4.3 给模型添加监督信息
- 6.5 基于Pix2Pix模型的图像上色实践
- 6.5.1 数据处理
- 6.5.2 模型代码解读
- 6.5.3 模型训练与测试
- 6.5.4 小结
- 参考文献
- 第7章 人脸图像编辑
- 7.1 人脸表情编辑
- 7.1.1 表情编辑问题
- 7.1.2 关键点控制的表情编辑模型
- 7.2 人脸年龄编辑
- 7.2.1 年龄编辑问题
- 7.2.2 基于潜在空间的条件对抗自编码模型
- 7.3 人脸姿态编辑
- 7.3.1 姿态编辑问题
- 7.3.2 基于3DMM的姿态编辑模型
- 7.4 人脸风格编辑
- 7.4.1 风格编辑问题
- 7.4.2 基于注意力机制的风格化模型
- 7.5 人脸妆造编辑
- 7.5.1 妆造编辑问题
- 7.5.2 基于GAN的妆造迁移算法
- 7.6 人脸换脸编辑
- 7.6.1 身份编辑问题
- 7.6.2 基于编解码器的Deepfakes换脸算法
- 7.7 通用的人脸属性编辑
- 7.7.1 StyleGAN人脸编辑的关键问题
- 7.7.2 潜在编码向量的求解
- 7.8 基于StyleGAN模型的人脸属性编辑实践
- 7.8.1 人脸重建
- 7.8.2 人脸属性混合与插值
- 7.8.3 人脸属性编辑
- 7.8.4 小结
- 参考文献
- 第8章 图像质量增强
- 8.1 图像降噪
- 8.1.1 图像降噪问题
- 8.1.2 基于GAN的图像去噪框架
- 8.2 图像去模糊
- 8.2.1 图像去模糊问题
- 8.2.2 基于GAN的图像去模糊框架
- 8.3 图像色调映射
- 8.3.1 图像色调映射问题
- 8.3.2 图像色调映射数据集
- 8.3.3 基于GAN的图像色调映射框架
- 8.4 图像超分辨
- 8.4.1 图像超分辨问题
- 8.4.2 基于GAN的图像超分辨框架
- 8.5 图像修复
- 8.5.1 图像修复基础
- 8.5.2 基于GAN的图像修复框架
- 8.6 基于SRGAN的人脸超分重建实践
- 8.6.1 项目解读
- 8.6.2 模型训练
- 8.6.3 模型测试
- 8.6.4 小结
- 参考文献
- 第9章 三维图像与视频生成
- 9.1 三维图像与视频生成应用
- 9.1.1 三维图像生成应用
- 9.1.2 视频生成与预测应用
- 9.2 三维图像生成框架
- 9.2.1 一般三维图像生成框架
- 9.2.2 二维图到三维图的预测框架
- 9.3 视频生成与预测框架
- 9.3.1 基本的Video-GAN
- 9.3.2 多阶段的MD-GAN
- 9.3.3 内容动作分离的MoCoGAN
- 参考文献
- 第10章 通用图像编辑
- 10.1 图像深度编辑
- 10.1.1 深度与景深
- 10.1.2 图像景深编辑框架
- 10.2 图像融合
- 10.2.1 图像融合问题
- 10.2.2 基于GAN的图像融合框架
- 10.3 交互式图像编辑
- 10.3.1 交互式图像编辑框架
- 10.3.2 基于GAN的交互式图像编辑框架
- 10.4 展望
- 参考文献
- 第11章 对抗攻击
- 11.1 对抗攻击及防御算法
- 11.1.1 对抗攻击概述
- 11.1.2 常用攻击算法
- 11.1.3 常用防御算法
- 11.2 基于GAN的对抗样本生成
- 11.2.1 Perceptual-Sensitive GAN
- 11.2.2 Natural GAN
- 11.2.3 AdvGAN
- 11.3 基于GAN的对抗攻击防御
- 11.3.1 APEGAN
- 11.3.2 DefenseGAN
- 11.4 对抗攻击工具包AdvBox
- 11.4.1 对分类器的攻击
- 11.4.2 高斯噪声对抗防御
- 11.4.3 其他示例程序
- 参考文献
- 第12章 语音信号处理
- 12.1 基于GAN的语音增强
- 12.1.1 项目简介
- 12.1.2 SEGAN模型
- 12.1.3 SEGAN训练和测试
- 12.2 基于GAN的语音转换
- 12.2.1 项目简介
- 12.2.2 WORLD语音合成工具
- 12.2.3 CycleGAN-VC2模型
- 12.2.4 CycleGAN-VC2训练
- 12.2.5 CycleGAN-VC2测试
- 12.3 基于GAN的语音生成
- 12.3.1 项目简介
- 12.3.2 WaveGAN模型
- 12.3.3 WaveGAN训练和测试
- 参考文献
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。