科技
类型
可以朗读
语音朗读
351千字
字数
2024-08-01
发行日期
展开全部
主编推荐语
详解解芯片技术背后的理念、设计哲学和发展过程。
内容简介
本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分,介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理,以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。
本书对华为等厂商推出的NPU芯片设计也做了架构描述,中国也拥有独立自主知识产权的高算力芯片,并且支持多芯片、高带宽互连。本书也回顾了近20年来主流的CPU、GPU芯片架构的特点,介绍了存储与互连总线技术,即大模型专用AI超级计算机的中枢核心。
目录
- 版权信息
- 内容简介
- 推荐序
- 前言
- 第1章 从TOP500和MLPerf看算力芯片格局
- 1.1 科学算力最前沿TOP500
- 1.1.1 TOP500的测试方式HPL
- 1.1.2 TOP500与算力芯片行业发展
- 1.2 AI算力新标准MLPerf
- 第2章 高性能CPU流水线概览
- 2.1 什么是指令
- 2.2 流水线与MIPS
- 2.2.1 经典5级流水线概述
- 2.2.2 超流水线及其挑战
- 2.3 分支预测
- 2.3.1 先进分支预测之“感知机分支预测器”
- 2.3.2 先进分支预测之“TAGE分支预测器”
- 2.4 指令缓存体系
- 2.5 译码单元
- 2.6 数据缓存
- 2.6.1 多级缓存的数据包含策略
- 2.6.2 缓存映射关系
- 2.6.3 受害者缓存
- 2.6.4 写入策略与一致性协议
- 2.7 TLB(旁路快表缓冲)
- 2.8 乱序执行引擎
- 2.8.1 指令相关的解决方案
- 2.8.2 寄存器重命名
- 2.8.3 指令提交与ROB单元
- 2.8.4 发射队列
- 2.8.5 数据旁路
- 2.9 超线程技术
- 第3章 缓存硬件结构
- 3.1 DRAM与SRAM设计取舍
- 3.2 DRAM读/写过程
- 3.3 SRAM读/写过程(以6T SRAM为例)
- 3.4 Intel对8T SRAM的探索
- 3.5 不同规格SRAM的物理特性
- 3.6 非一致性缓存架构
- 第4章 CPU计算单元设计
- 4.1 计算单元逻辑构成
- 4.2 整数和浮点数的差异
- 4.3 算术逻辑单元
- 4.3.1 ALU加法器与减法器
- 4.3.2 ALU比较单元和位移单元
- 4.3.3 ALU乘法器与除法器
- 4.4 浮点数单元
- 4.4.1 浮点加法器与减法器
- 4.4.2 浮点乘法器与除法器
- 4.5 指令的加载和存储单元
- 4.6 单指令多数据
- 4.6.1 MMX指令集
- 4.6.2 3DNow!指令集
- 4.6.3 SSE指令集及其扩展指令集
- 4.6.4 AVX指令集及其扩展指令集
- 4.6.5 AVX-512指令集与下一代AVX10指令集
- 4.6.6 对AVX指令集的间接实施
- 4.7 矩阵加速指令集
- 4.8 ARM SVE指令集
- 第5章 逻辑拓扑结构
- 5.1 环形拓扑方式
- 5.2 Infinity Fabric拓扑方式
- 5.3 网格拓扑方式
- 5.4 片上网络(NoC)
- 5.4.1 NoC分析重点
- 5.4.2 NoC高速发展的原因
- 5.4.3 常见NoC拓扑结构及特性
- 5.4.4 拓扑结构指标参数
- 5.4.5 拓扑结构改进案例
- 5.4.6 路由器微架构设计
- 5.5 近存计算拓扑特性
- 5.5.1 IPU芯片
- 5.5.2 WSE芯片
- 5.6 单芯片UMA与NUMA
- 第6章 经典算力CPU芯片解读
- 6.1 申威处理器
- 6.1.1 SW26010单芯片设计
- 6.1.2 “神威·太湖之光”系统设计
- 6.1.3 SW26010对比CPU+协处理器方案
- 6.1.4 针对SW26010的OpenCL编译系统设计
- 6.1.5 SW26010后期迭代
- 6.2 富士通A64FX处理器
- A64FX指令流水线设计
- 6.3 苹果M1处理器
- 6.3.1 SoC模块化设计
- 6.3.2 高性能核心流水线设计
- 6.3.3 计算单元资源
- 6.3.4 UltraFusion芯片扩展
- 6.4 Ampere处理器
- 6.4.1 Ampere Altra
- 6.4.2 AmpereOne
- 6.5 IBM POWER处理器
- 6.5.1 POWER9架构设计
- 6.5.2 POWER9拓扑技术
- 6.5.3 POWER10架构分析
- 6.5.4 POWER10拓扑技术
- 6.5.5 POWER10 SIMD单元改进与MMA加速器
- 6.6 EPYC 9004处理器
- 6.6.1 Zen微架构介绍
- 6.6.2 EPYC处理器设计
- 6.6.3 Zen 4c小核心设计策略
- 6.7 Sapphire Rapids微架构Xeon处理器
- 6.7.1 EMIB封装
- 6.7.2 Golden Cove微架构
- 6.7.3 其他硬件加速单元——Intel IAA内存分析加速器
- 6.7.4 其他硬件加速单元——Intel DSA数据流加速器
- 6.7.5 Intel QAT数据保护与压缩加速技术
- 6.7.6 Intel DLB动态负载均衡器
- 6.8 Tesla Dojo超级计算机和D1处理器
- 6.8.1 D1芯片微架构
- 6.8.2 训练瓦片和存储资源
- 6.8.3 丰富的低精度数据类型
- 6.8.4 设计独特性与思考
- 第7章 从图形到计算的GPU架构演进
- 7.1 GPU图形计算发展
- 7.1.1 从三角形开始的几何阶段
- 7.1.2 光栅化衔接3D和2D世界
- 7.1.3 像素着色阶段
- 7.1.4 DirectX API推动GPU演进
- 7.2 GPGPU 指令流水线
- 7.2.1 取指阶段
- 7.2.2 译码阶段
- 7.2.3 发射阶段
- 7.2.4 执行阶段
- 7.2.5 写回阶段
- 第8章 GPGPU存储体系与线程管理
- 8.1 GPGPU多级别存储体系
- 8.1.1 大容量寄存器与倒金字塔结构
- 8.1.2 不同时代NVIDIA GPU片上存储器容量
- 8.1.3 GPGPU存储组织模式之合并访存
- 8.1.4 GPGPU存储组织模式之板块冲突
- 8.2 GPGPU线程管理
- 8.2.1 GPU线程定义
- 8.2.2 线程束宽度
- 8.2.3 线程调度和管理
- 8.2.4 线程块在线程管理中的作用
- 8.2.5 SIMT堆栈与Volta架构对线程管理的改进
- 8.2.6 Cooperative Group
- 8.2.7 Hopper架构对线程管理的改进
- 8.3 通用矩阵乘法与AI类任务
- 8.3.1 利用线程块优化矩阵计算
- 8.3.2 通过流实现任务级并行
- 8.4 VLIW指令结构在GPU中的应用历史
- 第9章 张量处理器设计
- 9.1 张量的定义
- 9.2 脉动阵列计算单元
- 9.2.1 谷歌TPU处理器
- 9.2.2 TPU v4芯片概览
- 9.2.3 自研光学芯片用于TPU节点拓扑
- 9.3 Volta架构引入张量核心
- 9.3.1 张量核心设计细节
- 9.3.2 张量核心数据加载与指令编译
- 9.3.3 矩阵乘法访存优势与数据布局
- 9.3.4 Ampere架构引入稀疏性张量加速
- 9.3.5 Hopper架构改进张量内存加速器
- 9.3.6 低精度性能增益
- 9.4 华为昇腾Ascend 910 NPU芯片
- 9.4.1 达芬奇架构AI Core分析
- 9.4.2 拓扑互连能力
- 9.4.3 CANN与AI框架MindSpore
- 第10章 经典GPU算力芯片解读
- 10.1 NVIDIA GPU芯片
- 10.1.1 G80架构
- 10.1.2 GT200架构
- 10.1.3 Fermi架构
- 10.1.4 Kepler架构
- 10.1.5 Maxwell架构
- 10.1.6 Pascal架构
- 10.1.7 Volta架构
- 10.1.8 Turing架构
- 10.1.9 Ampere架构
- 10.1.10 Hopper架构
- 10.2 AMD GPU芯片
- 10.2.1 TeraScale架构
- 10.2.2 GCN架构
- 10.2.3 RDNA架构
- 10.3 Intel Xe GPU架构
- 10.3.1 x86指令集Larrabee GPGPU
- 10.3.2 Xe-core高端核心与EU低端核心
- 10.3.3 子片和扩展结构
- 10.3.4 超大芯片Ponte Vecchio
- 第11章 存储与互连总线技术
- 11.1 从DDR到HBM
- 11.1.1 为更高带宽持续改进——GDDR
- 11.1.2 新封装方式——HBM
- 11.2 PCI Express总线概况
- 11.2.1 由需求驱动的PCle总线发展历程
- 11.2.2 PCle物理和数据链路层技术概览
- 11.3 CXL扩展技术
- 11.3.1 CXL的3个子协议
- 11.3.2 CXL 2.0主要特性:内存池化
- 11.3.3 CXL 3.0主要特性:内存共享、多级拓扑
- 11.3.4 CXL协议细节
- 11.3.5 CXL延迟拆解
- 11.4 NVLink互连技术与GPU超级计算机
- 11.4.1 Pascal架构第一代NVLink
- 11.4.2 Volta架构第二代NVLink
- 11.4.3 Ampere架构第三代NVLink
- 11.4.4 Hopper架构第四代NVLink
- 11.4.5 Grace Hopper超级芯片
展开全部
出版方
电子工业出版社
电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。