展开全部

主编推荐语

系统化阐述全栈智算云构建。

内容简介

大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的算力及基础架构。

本书针对如何为大模型构建基础架构进行深入讲解,并基于TOGAF方法论,剖析业界知名案例的设计方案。

目录

  • 版权信息
  • 内容简介
  • 推荐序一
  • 推荐序二
  • 推荐序三
  • 前言
  • 第1章 AI与大模型时代对基础架构的需求
  • 1.1 我们在谈论AI时,到底在谈论什么
  • 1.2 机器学习算法初窥
  • 1.3 一元线性回归算法剖析
  • 1.4 机器学习算法对计算机硬件的特殊需求
  • 1.4.1 机器学习算法的核心运算特征
  • 1.4.2 使用CPU实现机器学习算法和并行加速
  • 1.4.3 机器学习算法的主力引擎——GPU
  • 1.4.4 机器学习算法的新引擎——TPU和NPU
  • 1.5 本章小结
  • 第2章 软件程序与专用硬件的结合
  • 2.1 GPU并行运算库
  • 2.2 机器学习程序的开发框架
  • 2.3 分布式AI训练
  • 2.4 本章小结
  • 第3章 GPU硬件架构剖析
  • 3.1 GPU的总体设计
  • 3.2 Nvidia GH100芯片架构剖析
  • 3.3 其他Hopper架构的GPU
  • 3.4 本章小结
  • 第4章 GPU服务器的设计与实现
  • 4.1 初识Nvidia DGX
  • 4.2 Nvidia DGX A100的总体设计
  • 4.3 Nvidia DGX A100 CPU与内存子系统的设计
  • 4.4 Nvidia DGX A100 PCI-E子系统的设计
  • 4.5 Nvidia DGX A100 NVLink子系统的设计
  • 4.6 其他辅助子系统的设计
  • 4.7 本章小结
  • 第5章 机器学习所依托的I/O框架体系
  • 5.1 Magnum IO的需求来源
  • 5.2 Magnum IO的核心组件
  • 5.3 服务器内部的GPU互通
  • 5.4 跨服务器节点的GPU通信
  • 5.5 RDMA的两种实现
  • 5.6 GPU对存储的访问
  • 5.7 Magnum IO所依赖的其他支撑技术
  • 5.7.1 DPDK(Data Plane Development Kit,数据平面开发套件)
  • 5.7.2 DPU(Data Processing Unit,数据处理器)
  • 5.7.3 MPI Tag Matching
  • 5.8 本章小结
  • 第6章 GPU集群的网络设计与实现
  • 6.1 GPU集群中RoCE计算网络的设计与实现
  • 6.2 GPU集群中存储与业务网络的设计与实现
  • 6.3 GPU集群中带外管理监控网络的设计与实现
  • 6.4 GPU集群中网络边界的设计与实现
  • 6.5 本章小结
  • 第7章 GPU板卡级算力调度技术
  • 7.1 基于虚拟化技术的GPU调度
  • 7.2 基于容器技术的GPU调度
  • 7.3 本章小结
  • 第8章 GPU虚拟化调度方案
  • 8.1 Nvidia的GPU虚拟化调度方案
  • 8.1.1 API Remoting与vCUDA
  • 8.1.2 GRID vGPU
  • 8.1.3 Nvidia MIG
  • 8.2 其他硬件厂商的GPU虚拟化调度方案
  • 8.2.1 AMD的SRIOV方案
  • 8.2.2 Intel的GVT-G方案
  • 8.3 云厂商与开源社区基于容器的GPU虚拟化调度方案
  • 8.3.1 TKE vCUDA+GPU Manager
  • 8.3.2 阿里云的cGPU
  • 8.3.3 腾讯云的qGPU
  • 8.4 本章小结
  • 第9章 GPU集群的网络虚拟化设计与实现
  • 9.1 基于SDN的VPC技术:网络虚拟化技术的基石
  • 9.2 云负载均衡:机器学习网络的中流砥柱
  • 9.3 专线接入、对等连接与VPC网关
  • 9.4 SDN NFV网关的实现与部署
  • 9.4.1 基于virtio-net/vhost的虚拟机部署NFV
  • 9.4.2 基于SRIOV的虚拟机部署NFV
  • 9.4.3 使用DPDK技术对NFV加速
  • 9.5 本章小结
  • 第10章 GPU集群的存储设计与实现
  • 10.1 程序与系统存储——分布式块存储
  • 10.1.1 块存储的业务需求
  • 10.1.2 集中式块存储与分布式块存储
  • 10.1.3 分布式块存储的故障恢复
  • 10.1.4 分布式块存储的性能优化
  • 10.1.5 分布式块存储的快照与回滚
  • 10.2 海量非结构化数据存储——分布式对象存储
  • 10.2.1 入门级对象存储的首选:Ceph
  • 10.2.2 开源海量对象存储:Swift
  • 10.2.3 商业化对象存储:大型公有云对象存储私有化
  • 10.2.4 未来之星:MinIO
  • 10.3 AI训练素材存储——分布式并发高性能存储
  • 10.3.1 开源大数据存储鼻祖:HDFS
  • 10.3.2 业界对HDFS的改进
  • 10.3.3 长青松柏:Lustre
  • 10.4 本章小结
  • 第11章 机器学习应用开发与运行平台的设计与实现
  • 11.1 微服务平台
  • 11.1.1 Kubernetes:微服务基础能力平台
  • 11.1.2 Spring Cloud:Java系专属微服务平台
  • 11.1.3 Istio:不挑开发语言,只挑部署架构
  • 11.1.4 商业化微服务平台:兼顾各类需求的选择
  • 11.2 中间件服务
  • 11.2.1 消息中间件
  • 11.2.2 缓存中间件
  • 11.2.3 数据库(数据中间件)
  • 11.3 应用日志服务
  • 11.4 本章小结
  • 第12章 基于云平台的GPU集群的管理与运营
  • 12.1 云运维平台
  • 12.1.1 硬件基础设施管理
  • 12.1.2 系统监控与告警平台
  • 12.1.3 CMDB
  • 12.2 云运营平台
  • 12.3 云审计平台
  • 12.4 本章小结
  • 第13章 服务机器学习的GPU计算平台落地案例
  • 13.1 需求来源:自动驾驶模型训练
  • 13.2 总体设计——基于云原生的高性能计算
  • 13.3 计算需求分析与设计实现
  • 13.4 存储需求分析与设计实现
  • 13.5 网络需求分析与设计实现
  • 13.6 本章小结
  • 后记
展开全部

评分及书评

4.3
4个评分
  • 用户头像
    给这本书评了
    5.0
    一本非常好的介绍智算的书籍

    通过本书的阅读,我对智算和 GPU 相关知识有了更深一步的理解,但限于缺乏智算基础功底,通过第一遍阅读,大概只理解了 1/3 的内容,若要深化,还需在深入阅读一遍,要将书从薄读到厚,从厚都到薄。总的来说,是非常好的一本介绍智算的书籍。

      转发
      评论

    出版方

    电子工业出版社

    电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。