科技
类型
可以朗读
语音朗读
198千字
字数
2024-05-01
发行日期
展开全部
主编推荐语
一本书讲透AIGC技术原理。
内容简介
本书旨在帮助没有任何人工智能技术基础的工程师们全面掌握AIGC的底层技术原理,以及大语言模型、扩散模型和多模态模型的原理与实践。
目录
- 版权信息
- PREFACE 前言
- CHAPTER 1 第1章 AIGC概述
- 1.1 AIGC的主要技术
- 1.1.1 语言生成方面的技术
- 1.1.2 视觉生成方面的技术
- 1.1.3 多模态方面的技术
- 1.2 生成模型与判别模型
- 1.2.1 生成模型
- 1.2.2 判别模型
- 1.3 生成模型的原理
- 1.3.1 生成模型的框架
- 1.3.2 生成模型的概率表示
- 1.3.3 生成模型的目标函数
- 1.3.4 生成模型的挑战及解决方法
- 1.4 表示学习
- 1.4.1 表示学习的直观理解
- 1.4.2 表示学习的常用方式
- 1.4.3 表示学习与特征工程的区别
- 1.4.4 图像的表示学习
- 1.4.5 文本的表示学习
- 1.4.6 多模态的表示学习
- 1.4.7 表示学习的融合技术
- 1.4.8 如何衡量表示学习的优劣
- 1.5 表示学习的逆过程
- CHAPTER 2 第2章 深度神经网络
- 2.1 用PyTorch构建深度神经网络
- 2.1.1 神经网络的核心组件
- 2.1.2 构建神经网络的主要工具
- 2.1.3 构建模型
- 2.1.4 训练模型
- 2.2 用PyTorch实现神经网络实例
- 2.2.1 准备数据
- 2.2.2 可视化源数据
- 2.2.3 构建模型
- 2.2.4 训练模型
- 2.3 用PyTorch Lightning实现神经网络实例
- 2.4 构建卷积神经网络
- 2.4.1 全连接层
- 2.4.2 卷积层
- 2.4.3 卷积核
- 2.4.4 步幅
- 2.4.5 填充
- 2.4.6 多通道上的卷积
- 2.4.7 激活函数
- 2.4.8 卷积函数
- 2.4.9 转置卷积
- 2.4.10 特征图与感受野
- 2.4.11 卷积层如何保留图像的空间信息
- 2.4.12 现代经典网络
- 2.4.13 可变形卷积
- 2.5 构建循环神经网络
- 2.5.1 从神经网络到有隐含状态的循环神经网络
- 2.5.2 使用循环神经网络构建语言模型
- 2.5.3 多层循环神经网络
- 2.5.4 现代经典循环神经网络
- 2.6 迁移学习
- 2.6.1 迁移学习简介
- 2.6.2 微调预训练模型
- 2.7 深度学习常用的归一化方法
- 2.7.1 归一化方法简介
- 2.7.2 归一化的原理
- 2.7.3 归一化的代码实现
- 2.8 权重初始化
- 2.8.1 为何要进行权重初始化
- 2.8.2 权重初始化方法
- 2.9 PyTorch常用的损失函数
- 2.10 深度学习常用的优化算法
- 2.10.1 传统梯度更新算法
- 2.10.2 批量随机梯度下降法
- 2.10.3 动量算法
- 2.10.4 Nesterov动量算法
- 2.10.5 AdaGrad算法
- 2.10.6 RMSProp算法
- 2.10.7 Adam算法
- 2.10.8 各种优化算法比较
- CHAPTER 3 第3章 变分自编码器
- 3.1 自编码器简介
- 3.1.1 构建自编码器
- 3.1.2 构建编码器
- 3.1.3 构建解码器
- 3.1.4 定义损失函数及优化器
- 3.1.5 分析自编码器
- 3.2 变分自编码器简介
- 3.2.1 变分自编码器的直观理解
- 3.2.2 变分自编码器的原理
- 3.3 构建变分自编码器
- 3.3.1 构建编码器
- 3.3.2 构建解码器
- 3.3.3 损失函数
- 3.3.4 分析变分自编码器
- 3.4 使用变分自编码器生成面部图像
- 3.4.1 编码器
- 3.4.2 解码器
- 3.4.3 进一步分析变分自编码器
- 3.4.4 生成新头像
- CHAPTER 4 第4章 生成对抗网络
- 4.1 GAN模型简介
- 4.1.1 GAN的直观理解
- 4.1.2 GAN的原理
- 4.1.3 GAN的训练过程
- 4.2 用GAN从零开始生成图像
- 4.2.1 判别器
- 4.2.2 生成器
- 4.2.3 损失函数
- 4.2.4 训练模型
- 4.2.5 可视化结果
- 4.3 GAN面临的问题
- 4.3.1 损失振荡
- 4.3.2 模型坍塌的简单实例
- 4.3.3 GAN模型坍塌的原因
- 4.3.4 避免GAN模型坍塌的方法
- 4.4 WGAN
- 4.4.1 改进方向和效果
- 4.4.2 Wasserstein距离的优越性
- 4.4.3 WGAN的损失函数代码
- 4.4.4 WGAN的其他核心代码
- 4.5 WGAN-GP
- 4.5.1 权重裁剪的隐患
- 4.5.2 梯度惩罚损失
- 4.5.3 WGAN-GP的训练过程
- 4.5.4 WGAN-GP的损失函数代码
- CHAPTER 5 第5章 StyleGAN模型
- 5.1 ProGAN简介
- 5.2 StyleGAN架构
- 5.3 StyleGAN的其他算法
- 5.4 用PyTorch从零开始实现StyleGAN
- 5.4.1 构建生成网络
- 5.4.2 构建判别器网络
- 5.4.3 损失函数
- 5.5 StyleGAN的最新进展
- 5.5.1 StyleGAN2简介
- 5.5.2 StyleGAN3简介
- 5.5.3 StyleGAN与DeepDream模型的异同
- 5.6 DragGAN简介
- CHAPTER 6 第6章 风格迁移
- 6.1 DeepDream模型
- 6.1.1 DeepDream的原理
- 6.1.2 DeepDream算法的流程
- 6.1.3 使用PyTorch实现DeepDream
- 6.2 普通风格迁移
- 6.2.1 内容损失
- 6.2.2 风格损失
- 6.2.3 使用PyTorch实现神经网络风格迁移
- 6.3 使用PyTorch实现图像修复
- 6.3.1 网络结构
- 6.3.2 损失函数
- 6.3.3 图像修复实例
- 6.4 风格迁移与StyleGAN模型
- CHAPTER 7 第7章 注意力机制
- 7.1 注意力机制简介
- 7.1.1 两种常见的注意力机制
- 7.1.2 来自生活的注意力
- 7.1.3 注意力机制的本质
- 7.2 带注意力机制的编码器-解码器架构
- 7.2.1 引入注意力机制
- 7.2.2 计算注意力分配概率分布值
- 7.3 自注意力
- 7.3.1 单层自注意力
- 7.3.2 多层自注意力
- 7.3.3 多头自注意力
- 7.3.4 自注意力与卷积网络、循环网络的比较
- 7.4 如何训练含自注意力的模型
- 7.4.1 将标记向量化
- 7.4.2 添加位置编码
- 7.4.3 逆嵌入过程
- 7.5 交叉注意力
- 7.5.1 Transformer解码器中的交叉注意力
- 7.5.2 Stable Diffusion解码器中的交叉注意力
- 7.5.3 交叉注意力与自注意力的异同
- CHAPTER 8 第8章 Transformer模型
- 8.1 Transformer模型的直观理解
- 8.1.1 顶层设计
- 8.1.2 嵌入和向量化
- 8.1.3 位置编码
- 8.1.4 自注意力
- 8.1.5 掩码
- 8.1.6 多头注意力
- 8.1.7 残差连接
- 8.1.8 层归一化
- 8.1.9 解码器的输出
- 8.1.10 多层叠加
- 8.2 用PyTorch从零开始实现Transformer
- 8.2.1 构建编码器-解码器架构
- 8.2.2 构建编码器
- 8.2.3 构建解码器
- 8.2.4 构建多头注意力
- 8.2.5 构建前馈神经网络层
- 8.2.6 预处理输入数据
- 8.2.7 构建完整网络
- 8.2.8 训练模型
- 8.2.9 一个简单实例
- CHAPTER 9 第9章 大语言模型
- 9.1 大语言模型简介
- 9.2 可视化GPT原理
- 9.2.1 GPT简介
- 9.2.2 GPT的整体架构
- 9.2.3 GPT模型架构
- 9.2.4 GPT-2与BERT的多头注意力的区别
- 9.2.5 GPT-2的输入
- 9.2.6 GPT-2计算遮掩自注意力的详细过程
- 9.2.7 GPT-2的输出
- 9.2.8 GPT-1与GPT-2的异同
- 9.3 GPT-3简介
- 9.4 可视化BERT原理
- 9.4.1 BERT的整体架构
- 9.4.2 BERT的输入
- 9.4.3 遮掩语言模型
- 9.4.4 预测下一个句子
- 9.4.5 微调
- 9.4.6 使用特征提取方法
- 9.5 用PyTorch实现BERT
- 9.5.1 BERTEmbedding类的代码
- 9.5.2 TransformerBlock类的代码
- 9.5.3 构建BERT的代码
- 9.6 用GPT-2生成文本
- 9.6.1 下载GPT-2预训练模型
- 9.6.2 用贪心搜索进行解码
- 9.6.3 用束搜索进行解码
- 9.6.4 用采样进行解码
- 9.6.5 用Top-K采样进行解码
- 9.6.6 用Top-p采样进行解码
- 9.6.7 用综合方法进行解码
- CHAPTER 10 第10章 ChatGPT模型
- 10.1 ChatGPT简介
- 10.1.1 ChatGPT核心技术
- 10.1.2 InstructGPT和ChatGPT的训练过程
- 10.1.3 指令微调
- 10.1.4 ChatGPT的不足
- 10.2 人类反馈强化学习
- 10.2.1 工作原理
- 10.2.2 工作流程
- 10.2.3 PPO算法
- 10.2.4 评估框架
- 10.2.5 创新与不足
- 10.3 Codex
- 10.3.1 对源代码进行预处理
- 10.3.2 处理代码块
- 10.3.3 将源代码数字化
- 10.3.4 衡量指标
- 10.3.5 Codex的逻辑推理能力是如何形成的
- 10.3.6 CodeGeeX的主要功能
- 10.3.7 CodeGeeX模型架构
- 10.4 如何将LaTeX数学公式语言转化为自然语言
- 10.5 使用PPO算法优化车杆游戏
- 10.5.1 构建策略网络
- 10.5.2 构建价值网络
- 10.5.3 构建PPO模型
- 10.5.4 定义超参数
- 10.5.5 实例化模型
- 10.5.6 训练模型
- 10.5.7 可视化迭代
- 10.6 使用RLHF算法提升GPT-2性能
- 10.6.1 基于中文情绪识别模型的正向评论生成机器人
- 10.6.2 对评论进行人工打分
- 10.6.3 标注排序序列替代直接打分
- 10.7 ChatGPT如何提升思维链推断能力
- 10.8 ChatGPT如何提升模型的数学逻辑推理能力
- CHAPTER 11 第11章 扩散模型
- 11.1 扩散模型简介
- 11.1.1 DDPM
- 11.1.2 扩散概率模型
- 11.1.3 正向扩散过程
- 11.1.4 反向扩散过程
- 11.1.5 正向扩散过程的数学细节
- 11.1.6 反向扩散过程的数学细节
- 11.1.7 训练目标和损失函数
- 11.2 使用PyTorch从零开始编写DDPM
- 11.2.1 定义超参数
- 11.2.2 创建数据集
- 11.2.3 创建数据加载器
- 11.2.4 可视化数据集
- 11.2.5 DDPM架构
- 11.2.6 用残差块取代双卷积模块的优势
- 11.2.7 创建扩散类
- 11.2.8 正向扩散过程
- 11.2.9 可视化正向扩散过程
- 11.2.10 基于训练算法和采样算法的训练
- 11.2.11 从零开始训练DDPM
- 11.2.12 使用DDPM生成图像
- CHAPTER 12 第12章 多模态模型
- 12.1 CLIP简介
- 12.1.1 CLIP如何将图像与图像描述进行对齐
- 12.1.2 CLIP如何实现零样本分类
- 12.1.3 CLIP原理
- 12.1.4 从零开始运行CLIP
- 12.1.5 CLIP应用
- 12.2 Stable Diffusion模型
- 12.2.1 Stable Diffusion模型的直观理解
- 12.2.2 Stable Diffusion模型的原理
- 12.3 从零开始实现Stable Diffusion
- 12.3.1 文生图
- 12.3.2 根据提示词修改图
- 12.4 Stable Diffusion升级版简介
- 12.4.1 Stable Diffusion 2.0
- 12.4.2 Stable Diffusion XL
- 12.5 DALL·E模型
- 12.5.1 DALL·E简介
- 12.5.2 DALL·E 2简介
- 12.5.3 DALL·E 2与GAN的异同
- 12.5.4 DALL·E 3简介
- CHAPTER 13 第13章 AIGC的数学基础
- 13.1 矩阵的基本运算
- 13.1.1 矩阵加法
- 13.1.2 矩阵点积
- 13.1.3 转置
- 13.1.4 矩阵的阿达马积
- 13.1.5 行列式
- 13.2 随机变量及其分布
- 13.2.1 从随机事件到随机变量
- 13.2.2 离散型随机变量及其分布
- 13.2.3 连续型随机变量及其分布
- 13.2.4 随机变量的分布函数
- 13.2.5 多维随机变量及其分布
- 13.2.6 随机变量的数字特征
- 13.2.7 随机变量函数的分布
- 13.3 信息论
- 13.3.1 信息量
- 13.3.2 信息熵
- 13.3.3 条件熵
- 13.3.4 互信息
- 13.3.5 KL散度
- 13.3.6 交叉熵
- 13.3.7 JS散度
- 13.3.8 Wasserstein距离
- 13.3.9 困惑度
- 13.4 推断
- 13.4.1 极大似然估计
- 13.4.2 极大后验概率估计
- 13.4.3 EM算法
- 13.4.4 变分推断
- 13.4.5 马尔可夫链蒙特卡罗随机采样
- 13.5 强化学习
- 13.5.1 强化学习基本概念
- 13.5.2 强化学习基础算法
- 13.5.3 策略梯度
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。