2.7 用户推荐指数
科技
类型
7.2
豆瓣评分
可以朗读
语音朗读
188千字
字数
2023-10-01
发行日期
展开全部
主编推荐语
从基本概念到实践技巧,全方位解读AI大模型。
内容简介
本书介绍了AI大模型的基础知识和关键技术,如Transformer、BERT、ALBERT、T5、GPT系列、InstructGPT、ChatGPT、GPT 4、PaLM和视觉模型等,并详细解释了这些模型的技术原理、实际应用以及高性能计算(HPC)技术的使用,如并行计算和内存优化。
同时,书中还提供了实践案例,详细介绍了如何使用Colossal AI训练各种模型。无论是人工智能初学者还是经验丰富的实践者,都能从本书学到实用的知识和技能,从而在迅速发展的AI领域中找到适合自己的方向。
目录
- 版权信息
- 前言
- 第1章 深度学习中的AI大模型
- 1.1 AI大模型在人工智能领域的兴起
- 1.1.1 AI大模型的发展与挑战
- 1.1.2 AI大模型为何难以训练
- 1.2 深度学习框架入门
- 1.2.1 搭建神经网络
- 1.2.2 训练一个文本分类器
- 第2章 分布式系统:AI大模型的诞生之所
- 2.1 深度学习与分布式系统
- 2.1.1 从分布式计算到分布式AI系统
- 2.1.2 大规模分布式训练平台的关键技术
- 2.1.3 Colossal-AI应用实践
- 2.2 AI大模型训练方法
- 2.2.1 梯度累积和梯度裁剪
- 2.2.2 大批量优化器LARS/LAMB
- 2.2.3 模型精度与混合精度训练
- 2.3 异构训练
- 2.3.1 异构训练的基本原理
- 2.3.2 异构训练的实现策略
- 2.4 实战分布式训练
- 2.4.1 Colossal-AI环境搭建
- 2.4.2 使用Colossal-AI训练第一个模型
- 2.4.3 AI大模型的异构训练
- 第3章 分布式训练:上千台机器如何共同起舞
- 3.1 并行策略基础原理
- 3.1.1 数据并行:最基本的并行训练范式
- 3.1.2 张量并行:层内模型并行
- 3.1.3 流水线并行的原理与实现
- 3.2 高级并行策略基础原理
- 3.2.1 序列并行:超长序列模型训练
- 3.2.2 混合并行:扩展模型到千亿参数
- 3.2.3 自动并行:自动化的分布式并行训练
- 3.3 实战分布式训练
- 3.3.1 应用模型并行策略的实际案例
- 3.3.2 结合多种并行策略的训练实践
- 第4章 AI大模型时代的奠基石 Transformer模型
- 4.1 自然语言处理基础
- 4.1.1 自然语言任务介绍
- 4.1.2 语言输入的预处理
- 4.1.3 序列到序列模型
- 4.2 Transformer详解
- 4.2.1 Transformer模型结构
- 4.2.2 注意力与自注意力机制
- 4.2.3 Transformer中的归一化
- 4.3 Transformer的变体与扩展
- 4.3.1 变体模型汇总
- 4.3.2 Transformer序列位置信息的编码处理
- 4.3.3 Transformer训练
- 第5章 AI大幅度提升Google搜索质量:BERT模型
- 5.1 BERT模型详解
- 5.1.1 BERT模型总体架构与输入形式
- 5.1.2 BERT模型预训练任务
- 5.1.3 BERT模型的应用方法
- 5.2 高效降低内存使用的ALBERT模型
- 5.2.1 基于参数共享的参数缩减方法
- 5.2.2 句子顺序预测(SOP)预训练任务
- 5.3 BERT模型实战训练
- 5.3.1 构建BERT模型
- 5.3.2 并行训练BERT模型
- 第6章 统一自然语言处理范式的T5模型
- 6.1 T5模型详解
- 6.1.1 T5模型架构和输入输出——文本到文本
- 6.1.2 T5模型预训练
- 6.1.3 T5模型应用前景及未来发展
- 6.2 统一BERT和GPT的BART模型
- 6.2.1 从BERT、GPT到BART
- 6.2.2 BART模型预训练
- 6.2.3 BART模型的应用
- 6.3 统一语言学习范式的UL2框架
- 6.3.1 关于语言模型预训练的统一视角
- 6.3.2 结合不同预训练范式的混合去噪器
- 6.3.3 UL2的模型性能
- 6.4 T5模型预训练方法和关键技术
- 第7章 作为通用人工智能起点的GPT系列模型
- 7.1 GPT系列模型的起源
- 7.1.1 GPT的训练方法和关键技术
- 7.1.2 GPT的模型性能评估分析
- 7.2 GPT-2模型详解
- 7.2.1 GPT-2的核心思想
- 7.2.2 GPT-2的模型性能
- 7.3 GPT-3模型详解
- 7.3.1 小样本学习、一次学习与零次学习的异同
- 7.3.2 GPT-3的训练方法和关键技术
- 7.3.3 GPT-3的模型性能与效果评估
- 7.4 GPT-3模型构建与训练实战
- 7.4.1 构建GPT-3模型
- 7.4.2 使用异构训练降低GPT-3训练消耗资源
- 第8章 兴起新一代人工智能浪潮:ChatGPT模型
- 8.1 能与互联网交互的WebGPT
- 8.1.1 WebGPT的训练方法和关键技术
- 8.1.2 WebGPT的模型性能评估分析
- 8.2 能与人类交互的InstructGPT模型
- 8.2.1 指令学习
- 8.2.2 近端策略优化
- 8.2.3 基于人类反馈的强化学习(RLHF)方法汇总
- 8.3 ChatGPT和GPT-4
- 8.3.1 ChatGPT模型简介和应用
- 8.3.2 GPT-4模型特点与应用
- 8.4 构建会话系统模型
- 8.4.1 基于监督的指令精调与模型训练
- 8.4.2 会话系统的推理与部署策略
- 第9章 百花齐放的自然语言模型:Switch Transfomer和PaLM
- 9.1 万亿参数稀疏大模型Switch Transformer
- 9.1.1 稀疏门控混合专家模型MoE
- 9.1.2 基于MoE的万亿参数模型Switch Transformer
- 9.2 PaLM模型:优化语言模型性能
- 9.2.1 PaLM模型的结构、原理和关键特点
- 9.2.2 PaLM训练策略与效果评估
- 9.3 PaLM实战训练
- 第10章 实现Transformer向计算机视觉进军的ViT模型
- 10.1 Transformer在计算机视觉中的应用
- 10.1.1 ViT模型在计算机视觉中的发展背景
- 10.1.2 ViT模型的架构、原理和关键要素
- 10.1.3 大规模ViT模型的应用场景和挑战
- 10.2 视觉大模型的进一步发展:Transformer与卷积的融合
- 10.2.1 基于Transformer的视觉模型的改进应用
- 10.2.2 基于卷积的视觉模型的发展优化
- 10.3 ViT模型构建与训练实战
- 10.3.1 构建ViT模型的关键步骤与关键方法
- 10.3.2 多维张量并行的ViT的实战演练
- 参考文献
展开全部
出版方
机械工业出版社
机械工业出版社是全国优秀出版社,自1952年成立以来,坚持为科技、为教育服务,以向行业、向学校提供优质、权威的精神产品为宗旨,以“服务社会和人民群众需求,传播社会主义先进文化”为己任,产业结构不断完善,已由传统的图书出版向着图书、期刊、电子出版物、音像制品、电子商务一体化延伸,现已发展为多领域、多学科的大型综合性出版社,涉及机械、电工电子、汽车、计算机、经济管理、建筑、ELT、科普以及教材、教辅等领域。