展开全部

主编推荐语

详解大模型基本理论、算法、程序实现与应用实战,揭示大模型开发与微调技术。

内容简介

大模型是深度学习自然语言处理皇冠上的一颗明珠,也是当前AI和NLP研究与产业中最重要的方向之一。本书使用PyTorch 2.0作为学习大模型的基本框架,以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术,为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。

本书共18章,内容包括人工智能与大模型、PyTorch 2.0深度学习环境搭建、从零开始学习PyTorch 2.0、深度学习基础算法详解、基于PyTorch卷积层的MNIST分类实战、PyTorch数据处理与模型展示、ResNet实战、有趣的词嵌入、基于PyTorch循环神经网络的中文情感分类实战、自然语言处理的编码器、预训练模型BERT等。

目录

  • 版权信息
  • 作者简介
  • 内容简介
  • 前言
  • 第1章 新时代的曙光
  • 1.1 人工智能:思维与实践的融合
  • 1.1.1 人工智能的历史与未来
  • 1.1.2 深度学习与人工智能
  • 1.1.3 选择PyTorch 2.0实战框架
  • 1.2 大模型开启人工智能的新时代
  • 1.2.1 大模型带来的变革
  • 1.2.2 最强的中文大模型——清华大学ChatGLM介绍
  • 1.2.3 近在咫尺的未来——大模型的应用前景
  • 1.3 本章小结
  • 第2章 PyTorch 2.0深度学习环境搭建
  • 2.1 环境搭建1:安装Python
  • 2.1.1 Miniconda的下载与安装
  • 2.1.2 PyCharm的下载与安装
  • 2.1.3 Python代码小练习:计算Softmax函数
  • 2.2 环境搭建2:安装PyTorch 2.0
  • 2.2.1 Nvidia 10/20/30/40系列显卡选择的GPU版本
  • 2.2.2 PyTorch 2.0 GPU Nvidia运行库的安装
  • 2.2.3 PyTorch 2.0小练习:Hello PyTorch
  • 2.3 生成式模型实战:古诗词的生成
  • 2.4 图像降噪:手把手实战第一个深度学习模型
  • 2.4.1 MNIST数据集的准备
  • 2.4.2 MNIST数据集的特征和标签介绍
  • 2.4.3 模型的准备和介绍
  • 2.4.4 对目标的逼近——模型的损失函数与优化函数
  • 2.4.5 基于深度学习的模型训练
  • 2.5 本章小结
  • 第3章 从零开始学习PyTorch 2.0
  • 3.1 实战MNIST手写体识别
  • 3.1.1 数据图像的获取与标签的说明
  • 3.1.2 实战基于PyTorch 2.0的手写体识别模型
  • 3.1.3 基于Netron库的PyTorch 2.0模型可视化
  • 3.2 自定义神经网络框架的基本设计
  • 3.2.1 神经网络框架的抽象实现
  • 3.2.2 自定义神经网络框架的具体实现
  • 3.3 本章小结
  • 第4章 一学就会的深度学习基础算法详解
  • 4.1 反向传播神经网络的前身历史
  • 4.2 反向传播神经网络两个基础算法详解
  • 4.2.1 最小二乘法详解
  • 4.2.2 梯度下降算法
  • 4.2.3 最小二乘法的梯度下降算法及其Python实现
  • 4.3 反馈神经网络反向传播算法介绍
  • 4.3.1 深度学习基础
  • 4.3.2 链式求导法则
  • 4.3.3 反馈神经网络的原理与公式推导
  • 4.3.4 反馈神经网络原理的激活函数
  • 4.3.5 反馈神经网络原理的Python实现
  • 4.4 本章小结
  • 第5章 基于PyTorch卷积层的MNIST分类实战
  • 5.1 卷积运算的基本概念
  • 5.1.1 基本卷积运算示例
  • 5.1.2 PyTorch中的卷积函数实现详解
  • 5.1.3 池化运算
  • 5.1.4 Softmax激活函数
  • 5.1.5 卷积神经网络的原理
  • 5.2 实战:基于卷积的MNIST手写体分类
  • 5.2.1 数据的准备
  • 5.2.2 模型的设计
  • 5.2.3 基于卷积的MNIST分类模型
  • 5.3 PyTorch的深度可分离膨胀卷积详解
  • 5.3.1 深度可分离卷积的定义
  • 5.3.2 深度的定义以及不同计算层待训练参数的比较
  • 5.3.3 膨胀卷积详解
  • 5.3.4 实战:基于深度可分离膨胀卷积的MNIST手写体识别
  • 5.4 本章小结
  • 第6章 可视化的PyTorch数据处理与模型展示
  • 6.1 用于自定义数据集的torch.utils.data工具箱使用详解
  • 6.1.1 使用torch.utils.data. Dataset封装自定义数据集
  • 6.1.2 改变数据类型的Dataset类中的transform的使用
  • 6.1.3 批量输出数据的DataLoader类详解
  • 6.2 实战:基于tensorboardX的训练可视化展示
  • 6.2.1 可视化组件tensorboardX的简介与安装
  • 6.2.2 tensorboardX可视化组件的使用
  • 6.2.3 tensorboardX对模型训练过程的展示
  • 6.3 本章小结
  • 第7章 ResNet实战
  • 7.1 ResNet基础原理与程序设计基础
  • 7.1.1 ResNet诞生的背景
  • 7.1.2 PyTorch 2.0中的模块工具
  • 7.1.3 ResNet残差模块的实现
  • 7.1.4 ResNet网络的实现
  • 7.2 ResNet实战:CIFAR-10数据集分类
  • 7.2.1 CIFAR-10数据集简介
  • 7.2.2 基于ResNet的CIFAR-10数据集分类
  • 7.3 本章小结
  • 第8章 有趣的词嵌入
  • 8.1 文本数据处理
  • 8.1.1 Ag_news数据集介绍和数据清洗
  • 8.1.2 停用词的使用
  • 8.1.3 词向量训练模型Word2Vec使用介绍
  • 8.1.4 文本主题的提取:基于TF-IDF
  • 8.1.5 文本主题的提取:基于TextRank
  • 8.2 更多的词嵌入方法
  • 8.2.1 FastText的原理与基础算法
  • 8.2.2 FastText训练及其与PyTorch 2.0的协同使用
  • 8.2.3 使用其他预训练参数来生成PyTorch 2.0词嵌入矩阵(中文)
  • 8.3 针对文本的卷积神经网络模型简介
  • 8.3.1 字符(非单词)文本的处理
  • 8.3.2 卷积神经网络文本分类模型的实现——Conv1d(一维卷积)
  • 8.4 针对文本的卷积神经网络模型简介
  • 8.4.1 单词的文本处理
  • 8.4.2 卷积神经网络文本分类模型的实现——Conv2d(二维卷积)
  • 8.5 使用卷积对文本分类的补充内容
  • 8.5.1 汉字的文本处理
  • 8.5.2 其他细节
  • 8.6 本章小结
  • 第9章 基于循环神经网络的中文情感分类实战
  • 9.1 实战:循环神经网络与情感分类
  • 9.2 循环神经网络理论讲解
  • 9.2.1 什么是GRU
  • 9.2.2 单向不行,那就双向
  • 9.3 本章小结
  • 第10章 从零开始学习自然语言处理的编码器
  • 10.1 编码器的核心
  • 10.1.1 输入层——初始词向量层和位置编码器层
  • 10.1.2 自注意力层
  • 10.1.3 ticks和Layer Normalization
  • 10.1.4 多头注意力
  • 10.2 编码器的实现
  • 10.2.1 前馈层的实现
  • 10.2.2 编码器的实现
  • 10.3 实战编码器:拼音汉字转化模型
  • 10.3.1 汉字拼音数据集处理
  • 10.3.2 汉字拼音转化模型的确定
  • 10.3.3 模型训练部分的编写
  • 10.4 本章小结
  • 第11章 站在巨人肩膀上的预训练模型BERT
  • 11.1 预训练模型BERT
  • 11.1.1 BERT的基本架构与应用
  • 11.1.2 BERT预训练任务与微调
  • 11.2 实战BERT:中文文本分类
  • 11.2.1 使用Hugging Face获取BERT预训练模型
  • 11.2.2 BERT实战文本分类
  • 11.3 更多的预训练模型
  • 11.4 本章小结
  • 第12章 从1开始自然语言处理的解码器
  • 12.1 解码器的核心
  • 12.1.1 解码器的输入和交互注意力层的掩码
  • 12.1.2 为什么通过掩码操作能够减少干扰
  • 12.1.3 解码器的输出(移位训练方法)
  • 12.1.4 解码器的实现
  • 12.2 解码器实战
  • 12.2.1 数据集的获取与处理
  • 12.2.2 翻译模型
  • 12.2.3 拼音汉字模型的训练
  • 12.2.4 拼音汉字模型的使用
  • 12.3 本章小结
  • 第13章 基于PyTorch 2.0的强化学习实战
  • 13.1 基于强化学习的火箭回收实战
  • 13.1.1 火箭回收基本运行环境介绍
  • 13.1.2 火箭回收参数介绍
  • 13.1.3 基于强化学习的火箭回收实战
  • 13.1.4 强化学习的基本内容
  • 13.2 强化学习的基本算法
  • 13.2.1 PPO算法简介
  • 13.2.2 函数使用说明
  • 13.2.3 一学就会的TD-error理论介绍
  • 13.2.4 基于TD-error的结果修正
  • 13.2.5 对于奖励的倒序构成的说明
  • 13.3 本章小结
  • 第14章 ChatGPT前身
  • 14.1 GPT-2模型简介
  • 14.1.1 GPT-2模型的输入和输出结构——自回归性
  • 14.1.2 GPT-2模型的PyTorch实现
  • 14.1.3 GPT-2模型输入输出格式的实现
  • 14.2 Hugging Face GPT-2模型源码模型详解
  • 14.2.1 GPT2LMHeadModel类和GPT2Model类详解
  • 14.2.2 Block类详解
  • 14.2.3 Attention类详解
  • 14.2.4 MLP类详解
  • 14.3 Hugging Face GPT-2模型的使用与自定义微调
  • 14.3.1 模型的使用与自定义数据集的微调
  • 14.3.2 基于预训练模型的评论描述微调
  • 14.4 自定义模型的输出
  • 14.4.1 GPT输出的结构
  • 14.4.2 创造性参数temperature与采样个数topK
  • 14.5 本章小结
  • 第15章 实战训练自己的ChatGPT
  • 15.1 什么是ChatGPT
  • 15.2 RLHF模型简介
  • 15.2.1 RLHF技术分解
  • 15.2.2 RLHF中的具体实现——PPO算法
  • 15.3 基于RLHF实战的ChatGPT正向评论的生成
  • 15.3.1 RLHF模型进化的总体讲解
  • 15.3.2 ChatGPT评分模块简介
  • 15.3.3 带有评分函数的ChatGPT模型的构建
  • 15.3.4 RLHF中的PPO算法——KL散度
  • 15.3.5 RLHF中的PPO算法——损失函数
  • 15.4 本章小结
  • 第16章 开源大模型ChatGLM使用详解
  • 16.1 为什么要使用大模型
  • 16.1.1 大模型与普通模型的区别
  • 16.1.2 一个神奇的现象——大模型的涌现能力
  • 16.2 ChatGLM使用详解
  • 16.2.1 ChatGLM简介及应用前景
  • 16.2.2 下载ChatGLM
  • 16.2.3 ChatGLM的使用与Prompt介绍
  • 16.3 本章小结
  • 第17章 开源大模型ChatGLM高级定制化应用实战
  • 17.1 医疗问答GLMQABot搭建实战
  • 17.1.1 基于ChatGLM搭建专业领域问答机器人的思路
  • 17.1.2 基于真实医疗问答的数据准备
  • 17.1.3 文本相关性(相似度)的比较算法
  • 17.1.4 提示语句Prompt的构建
  • 17.1.5 基于单个文档的GLMQABot的搭建
  • 17.2 金融信息抽取实战
  • 17.2.1 基于ChatGLM搭建智能答案生成机器人的思路
  • 17.2.2 获取专业(范畴内)文档与编码存储
  • 17.2.3 查询文本编码的相关性比较与排序
  • 17.2.4 基于知识链的ChatGLM本地化知识库检索与智能答案生成
  • 17.3 基于ChatGLM的一些补充内容
  • 17.3.1 语言的艺术——Prompt的前世今生
  • 17.3.2 清华大学推荐的ChatGLM微调方法
  • 17.3.2 一种新的基于ChatGLM的文本检索方案
  • 17.4 本章小结
  • 第18章 对训练成本上亿美元的ChatGLM进行高级微调
  • 18.1 ChatGLM模型的本地化处理
  • 18.1.1 下载ChatGLM源码与合并存档
  • 18.1.2 修正自定义的本地化模型
  • 18.1.3 构建GLM模型的输入输出示例
  • 18.2 高级微调方法1
  • 18.2.1 数据的准备——将文本内容转化成三元组的知识图谱
  • 18.2.2 加速的秘密——Accelerate模型加速工具详解
  • 18.2.3 更快的速度——使用INT8(INT4)量化模型加速训练
  • 18.3 高级微调方法2
  • 18.3.1 对ChatGLM进行微调的方法——LoRA
  • 18.3.2 自定义LoRA的使用方法
  • 18.3.3 基于自定义LoRA的模型训练
  • 18.3.4 基于自定义LoRA的模型推断
  • 18.3.5 基于基本原理的LoRA实现
  • 18.4 高级微调方法3
  • 18.4.1 PEFT技术详解
  • 18.4.2 PEFT的使用与参数设计
  • 18.4.3 Huggingface专用PEFT的使用
  • 18.5 本章小结
展开全部

评分及书评

4.0
4个评分
  • 用户头像
    给这本书评了
    4.0
    深入浅出可看

    比较全面的介绍了基于 Pytorch 来开发大模型,也介绍了不同的深度学习算法的实现,算是入门书,不错👍

      转发
      评论

    出版方

    清华大学出版社

    清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。