展开全部

主编推荐语

详细介绍MindSpore在大模型领域的应用。

内容简介

随着ChatGPT等大语言模型的迅速发展,大语言模型已经成为人工智能领域发展的快车道,不同领域涌现出各种强大的新模型。开发者想要独立构建、部署符合自身需求的大语言模型,需要理解大语言模型的实现框架和基本原理。

本书梳理大语言模型的发展,首先介绍Transformer模型的基本原理、结构和模块及在NLP任务中的应用;然后介绍由只编码(Encoder-Only)到只解码(Decoder-Only)的技术路线发展过程中对应的 BERT、GPT等大语言模型;

接下来介绍大语言模型在部署、训练、调优过程中涉及的各种关键技术,如自动并行、预训练与微调、RLHF等,并提供相应的实践指导;最后以开源大语言模型BLOOM和LLaMA为样例,介绍其架构和实现过程,帮助读者理解并构建、部署自己的大语言模型。本书还提供了基于MindSpore框架的丰富样例代码。

目录

  • 版权信息
  • 内容提要
  • 专家推荐
  • 丛书序
  • 前言
  • 第1章 大语言模型的发展
  • 1.1 人工智能的发展阶段
  • 1.2 从深度学习到大语言模型
  • 第2章 Transformer模型
  • 2.1 Transformer模型的基本原理
  • 2.1.1 注意力机制
  • 2.1.2 自注意力机制
  • 2.1.3 多头注意力机制
  • 2.2 Transformer模型的结构和模块
  • 2.2.1 位置编码
  • 2.2.2 编码器
  • 2.2.3 解码器
  • 2.2.4 模型代码
  • 2.3 Transformer模型在NLP任务中的应用
  • 2.4 使用MindSpore实现基于Transformer模型的文本机器翻译模型
  • 2.4.1 数据集准备与数据预处理
  • 2.4.2 模型构建
  • 2.4.3 模型训练与评估
  • 2.4.4 模型推理
  • 2.5 参考文献
  • 第3章 BERT实践
  • 3.1 BERT基本原理
  • 3.2 BERT结构
  • 3.3 BERT预训练
  • 3.4 BERT微调
  • 3.5 使用MindSpore实现数据并行的BERT预训练
  • 3.6 参考文献
  • 第4章 GPT实践
  • 4.1 GPT基本原理
  • 4.2 GPT训练框架
  • 4.2.1 无监督预训练
  • 4.2.2 有监督微调
  • 4.2.3 GPT下游任务及模型输入
  • 4.3 使用MindSpore实现GPT的微调
  • 4.3.1 数据预处理
  • 4.3.2 模型定义
  • 4.3.3 模型训练
  • 4.3.4 模型评估
  • 4.4 参考文献
  • 第5章 GPT-2实践
  • 5.1 GPT-2的基本原理
  • 5.2 GPT-2的技术创新与改进
  • 5.3 GPT-2的优缺点
  • 5.4 使用MindSpore实现GPT-2的微调
  • 5.5 参考文献
  • 第6章 自动并行
  • 6.1 数据并行原理
  • 6.2 算子并行原理
  • 6.3 优化器并行原理
  • 6.3.1 背景及意义
  • 6.3.2 基本原理
  • 6.4 流水线并行原理
  • 6.4.1 背景及意义
  • 6.4.2 基本原理
  • 6.5 MoE并行原理
  • 6.5.1 背景及意义
  • 6.5.2 算法原理
  • 6.6 自动并行策略搜索
  • 6.6.1 策略搜索定位
  • 6.6.2 策略搜索算法
  • 6.6.3 MindSpore实践
  • 6.7 异构计算
  • 6.7.1 计算流程
  • 6.7.2 优化器异构
  • 6.7.3 词表异构
  • 6.7.4 参数服务器异构
  • 6.7.5 多层存储
  • 6.8 大语言模型性能分析
  • 6.8.1 缩短单个模块耗时
  • 6.8.2 提高不同模块任务间的并行度
  • 6.9 MindFormers接口
  • 6.9.1 准备工作
  • 6.9.2 Trainer高阶接口快速入门
  • 6.9.3 Pipeline推理接口快速入门
  • 6.9.4 AutoClass快速入门
  • 6.9.5 Transformer接口介绍
  • 6.10 参考文献
  • 第7章 大语言模型预训练与微调
  • 7.1 预训练大语言模型代码生成
  • 7.1.1 多语言代码生成模型CodeGeeX
  • 7.1.2 多语言代码生成基准HumanEval-X
  • 7.2 提示调优
  • 7.2.1 提示流程
  • 7.2.2 提示模板
  • 7.2.3 优缺点分析
  • 7.3 指令调优
  • 7.3.1 基本流程
  • 7.3.2 指令模板
  • 7.3.3 优缺点分析
  • 7.4 参考文献
  • 第8章 基于人类反馈的强化学习
  • 8.1 基本原理
  • 8.2 强化学习
  • 8.2.1 核心思想
  • 8.2.2 关键元素
  • 8.2.3 策略与价值函数
  • 8.2.4 PPO算法
  • 8.3 InstructGPT和ChatGPT中的RLHF
  • 8.3.1 训练流程
  • 8.3.2 训练任务
  • 8.3.3 模型效果
  • 8.4 优缺点分析
  • 8.5 参考文献
  • 第9章 BLOOM和LLaMA模型实践
  • 9.1 BLOOM介绍
  • 9.1.1 模型结构
  • 9.1.2 预训练数据集
  • 9.2 BLOOM实现
  • 9.2.1 BLOOM架构实现
  • 9.2.2 BLOOM总结
  • 9.3 基于BLOOM的微调
  • 9.3.1 数据集准备
  • 9.3.2 Checkpoint转换
  • 9.3.3 生成集群通信表
  • 9.3.4 启动预训练或微调
  • 9.3.5 微调后的对话效果
  • 9.4 LLaMA模型介绍
  • 9.4.1 模型结构
  • 9.4.2 预训练
  • 9.4.3 SFT与RLHF
  • 9.5 LLaMA模型实现
  • 9.5.1 LLaMA模型模块实现
  • 9.5.2 LLaMA模型结构实现
  • 9.6 基于LLaMA模型的微调
  • 9.6.1 数据集准备
  • 9.6.2 ckpt转换
  • 9.6.3 生成集群通信表
  • 9.6.4 启动微调
  • 9.6.5 微调效果
  • 9.7 参考文献
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

人民邮电出版社

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”,致力于通信、计算机、电子技术、教材、少儿、经管、摄影、集邮、旅游、心理学等领域的专业图书出版。