计算机
类型
可以朗读
语音朗读
135千字
字数
2024-10-01
发行日期
展开全部
主编推荐语
详细介绍MindSpore在大模型领域的应用。
内容简介
随着ChatGPT等大语言模型的迅速发展,大语言模型已经成为人工智能领域发展的快车道,不同领域涌现出各种强大的新模型。开发者想要独立构建、部署符合自身需求的大语言模型,需要理解大语言模型的实现框架和基本原理。
本书梳理大语言模型的发展,首先介绍Transformer模型的基本原理、结构和模块及在NLP任务中的应用;然后介绍由只编码(Encoder-Only)到只解码(Decoder-Only)的技术路线发展过程中对应的 BERT、GPT等大语言模型;
接下来介绍大语言模型在部署、训练、调优过程中涉及的各种关键技术,如自动并行、预训练与微调、RLHF等,并提供相应的实践指导;最后以开源大语言模型BLOOM和LLaMA为样例,介绍其架构和实现过程,帮助读者理解并构建、部署自己的大语言模型。本书还提供了基于MindSpore框架的丰富样例代码。
目录
- 版权信息
- 内容提要
- 专家推荐
- 丛书序
- 前言
- 第1章 大语言模型的发展
- 1.1 人工智能的发展阶段
- 1.2 从深度学习到大语言模型
- 第2章 Transformer模型
- 2.1 Transformer模型的基本原理
- 2.1.1 注意力机制
- 2.1.2 自注意力机制
- 2.1.3 多头注意力机制
- 2.2 Transformer模型的结构和模块
- 2.2.1 位置编码
- 2.2.2 编码器
- 2.2.3 解码器
- 2.2.4 模型代码
- 2.3 Transformer模型在NLP任务中的应用
- 2.4 使用MindSpore实现基于Transformer模型的文本机器翻译模型
- 2.4.1 数据集准备与数据预处理
- 2.4.2 模型构建
- 2.4.3 模型训练与评估
- 2.4.4 模型推理
- 2.5 参考文献
- 第3章 BERT实践
- 3.1 BERT基本原理
- 3.2 BERT结构
- 3.3 BERT预训练
- 3.4 BERT微调
- 3.5 使用MindSpore实现数据并行的BERT预训练
- 3.6 参考文献
- 第4章 GPT实践
- 4.1 GPT基本原理
- 4.2 GPT训练框架
- 4.2.1 无监督预训练
- 4.2.2 有监督微调
- 4.2.3 GPT下游任务及模型输入
- 4.3 使用MindSpore实现GPT的微调
- 4.3.1 数据预处理
- 4.3.2 模型定义
- 4.3.3 模型训练
- 4.3.4 模型评估
- 4.4 参考文献
- 第5章 GPT-2实践
- 5.1 GPT-2的基本原理
- 5.2 GPT-2的技术创新与改进
- 5.3 GPT-2的优缺点
- 5.4 使用MindSpore实现GPT-2的微调
- 5.5 参考文献
- 第6章 自动并行
- 6.1 数据并行原理
- 6.2 算子并行原理
- 6.3 优化器并行原理
- 6.3.1 背景及意义
- 6.3.2 基本原理
- 6.4 流水线并行原理
- 6.4.1 背景及意义
- 6.4.2 基本原理
- 6.5 MoE并行原理
- 6.5.1 背景及意义
- 6.5.2 算法原理
- 6.6 自动并行策略搜索
- 6.6.1 策略搜索定位
- 6.6.2 策略搜索算法
- 6.6.3 MindSpore实践
- 6.7 异构计算
- 6.7.1 计算流程
- 6.7.2 优化器异构
- 6.7.3 词表异构
- 6.7.4 参数服务器异构
- 6.7.5 多层存储
- 6.8 大语言模型性能分析
- 6.8.1 缩短单个模块耗时
- 6.8.2 提高不同模块任务间的并行度
- 6.9 MindFormers接口
- 6.9.1 准备工作
- 6.9.2 Trainer高阶接口快速入门
- 6.9.3 Pipeline推理接口快速入门
- 6.9.4 AutoClass快速入门
- 6.9.5 Transformer接口介绍
- 6.10 参考文献
- 第7章 大语言模型预训练与微调
- 7.1 预训练大语言模型代码生成
- 7.1.1 多语言代码生成模型CodeGeeX
- 7.1.2 多语言代码生成基准HumanEval-X
- 7.2 提示调优
- 7.2.1 提示流程
- 7.2.2 提示模板
- 7.2.3 优缺点分析
- 7.3 指令调优
- 7.3.1 基本流程
- 7.3.2 指令模板
- 7.3.3 优缺点分析
- 7.4 参考文献
- 第8章 基于人类反馈的强化学习
- 8.1 基本原理
- 8.2 强化学习
- 8.2.1 核心思想
- 8.2.2 关键元素
- 8.2.3 策略与价值函数
- 8.2.4 PPO算法
- 8.3 InstructGPT和ChatGPT中的RLHF
- 8.3.1 训练流程
- 8.3.2 训练任务
- 8.3.3 模型效果
- 8.4 优缺点分析
- 8.5 参考文献
- 第9章 BLOOM和LLaMA模型实践
- 9.1 BLOOM介绍
- 9.1.1 模型结构
- 9.1.2 预训练数据集
- 9.2 BLOOM实现
- 9.2.1 BLOOM架构实现
- 9.2.2 BLOOM总结
- 9.3 基于BLOOM的微调
- 9.3.1 数据集准备
- 9.3.2 Checkpoint转换
- 9.3.3 生成集群通信表
- 9.3.4 启动预训练或微调
- 9.3.5 微调后的对话效果
- 9.4 LLaMA模型介绍
- 9.4.1 模型结构
- 9.4.2 预训练
- 9.4.3 SFT与RLHF
- 9.5 LLaMA模型实现
- 9.5.1 LLaMA模型模块实现
- 9.5.2 LLaMA模型结构实现
- 9.6 基于LLaMA模型的微调
- 9.6.1 数据集准备
- 9.6.2 ckpt转换
- 9.6.3 生成集群通信表
- 9.6.4 启动微调
- 9.6.5 微调效果
- 9.7 参考文献
展开全部
出版方
人民邮电出版社
人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。