展开全部

主编推荐语

详解解芯片技术背后的理念、设计哲学和发展过程。

内容简介

本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分,介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理,以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。

本书对华为等厂商推出的NPU芯片设计也做了架构描述,中国也拥有独立自主知识产权的高算力芯片,并且支持多芯片、高带宽互连。本书也回顾了近20年来主流的CPU、GPU芯片架构的特点,介绍了存储与互连总线技术,即大模型专用AI超级计算机的中枢核心。

目录

  • 版权信息
  • 内容简介
  • 推荐序
  • 前言
  • 第1章 从TOP500和MLPerf看算力芯片格局
  • 1.1 科学算力最前沿TOP500
  • 1.1.1 TOP500的测试方式HPL
  • 1.1.2 TOP500与算力芯片行业发展
  • 1.2 AI算力新标准MLPerf
  • 第2章 高性能CPU流水线概览
  • 2.1 什么是指令
  • 2.2 流水线与MIPS
  • 2.2.1 经典5级流水线概述
  • 2.2.2 超流水线及其挑战
  • 2.3 分支预测
  • 2.3.1 先进分支预测之“感知机分支预测器”
  • 2.3.2 先进分支预测之“TAGE分支预测器”
  • 2.4 指令缓存体系
  • 2.5 译码单元
  • 2.6 数据缓存
  • 2.6.1 多级缓存的数据包含策略
  • 2.6.2 缓存映射关系
  • 2.6.3 受害者缓存
  • 2.6.4 写入策略与一致性协议
  • 2.7 TLB(旁路快表缓冲)
  • 2.8 乱序执行引擎
  • 2.8.1 指令相关的解决方案
  • 2.8.2 寄存器重命名
  • 2.8.3 指令提交与ROB单元
  • 2.8.4 发射队列
  • 2.8.5 数据旁路
  • 2.9 超线程技术
  • 第3章 缓存硬件结构
  • 3.1 DRAM与SRAM设计取舍
  • 3.2 DRAM读/写过程
  • 3.3 SRAM读/写过程(以6T SRAM为例)
  • 3.4 Intel对8T SRAM的探索
  • 3.5 不同规格SRAM的物理特性
  • 3.6 非一致性缓存架构
  • 第4章 CPU计算单元设计
  • 4.1 计算单元逻辑构成
  • 4.2 整数和浮点数的差异
  • 4.3 算术逻辑单元
  • 4.3.1 ALU加法器与减法器
  • 4.3.2 ALU比较单元和位移单元
  • 4.3.3 ALU乘法器与除法器
  • 4.4 浮点数单元
  • 4.4.1 浮点加法器与减法器
  • 4.4.2 浮点乘法器与除法器
  • 4.5 指令的加载和存储单元
  • 4.6 单指令多数据
  • 4.6.1 MMX指令集
  • 4.6.2 3DNow!指令集
  • 4.6.3 SSE指令集及其扩展指令集
  • 4.6.4 AVX指令集及其扩展指令集
  • 4.6.5 AVX-512指令集与下一代AVX10指令集
  • 4.6.6 对AVX指令集的间接实施
  • 4.7 矩阵加速指令集
  • 4.8 ARM SVE指令集
  • 第5章 逻辑拓扑结构
  • 5.1 环形拓扑方式
  • 5.2 Infinity Fabric拓扑方式
  • 5.3 网格拓扑方式
  • 5.4 片上网络(NoC)
  • 5.4.1 NoC分析重点
  • 5.4.2 NoC高速发展的原因
  • 5.4.3 常见NoC拓扑结构及特性
  • 5.4.4 拓扑结构指标参数
  • 5.4.5 拓扑结构改进案例
  • 5.4.6 路由器微架构设计
  • 5.5 近存计算拓扑特性
  • 5.5.1 IPU芯片
  • 5.5.2 WSE芯片
  • 5.6 单芯片UMA与NUMA
  • 第6章 经典算力CPU芯片解读
  • 6.1 申威处理器
  • 6.1.1 SW26010单芯片设计
  • 6.1.2 “神威·太湖之光”系统设计
  • 6.1.3 SW26010对比CPU+协处理器方案
  • 6.1.4 针对SW26010的OpenCL编译系统设计
  • 6.1.5 SW26010后期迭代
  • 6.2 富士通A64FX处理器
  • A64FX指令流水线设计
  • 6.3 苹果M1处理器
  • 6.3.1 SoC模块化设计
  • 6.3.2 高性能核心流水线设计
  • 6.3.3 计算单元资源
  • 6.3.4 UltraFusion芯片扩展
  • 6.4 Ampere处理器
  • 6.4.1 Ampere Altra
  • 6.4.2 AmpereOne
  • 6.5 IBM POWER处理器
  • 6.5.1 POWER9架构设计
  • 6.5.2 POWER9拓扑技术
  • 6.5.3 POWER10架构分析
  • 6.5.4 POWER10拓扑技术
  • 6.5.5 POWER10 SIMD单元改进与MMA加速器
  • 6.6 EPYC 9004处理器
  • 6.6.1 Zen微架构介绍
  • 6.6.2 EPYC处理器设计
  • 6.6.3 Zen 4c小核心设计策略
  • 6.7 Sapphire Rapids微架构Xeon处理器
  • 6.7.1 EMIB封装
  • 6.7.2 Golden Cove微架构
  • 6.7.3 其他硬件加速单元——Intel IAA内存分析加速器
  • 6.7.4 其他硬件加速单元——Intel DSA数据流加速器
  • 6.7.5 Intel QAT数据保护与压缩加速技术
  • 6.7.6 Intel DLB动态负载均衡器
  • 6.8 Tesla Dojo超级计算机和D1处理器
  • 6.8.1 D1芯片微架构
  • 6.8.2 训练瓦片和存储资源
  • 6.8.3 丰富的低精度数据类型
  • 6.8.4 设计独特性与思考
  • 第7章 从图形到计算的GPU架构演进
  • 7.1 GPU图形计算发展
  • 7.1.1 从三角形开始的几何阶段
  • 7.1.2 光栅化衔接3D和2D世界
  • 7.1.3 像素着色阶段
  • 7.1.4 DirectX API推动GPU演进
  • 7.2 GPGPU 指令流水线
  • 7.2.1 取指阶段
  • 7.2.2 译码阶段
  • 7.2.3 发射阶段
  • 7.2.4 执行阶段
  • 7.2.5 写回阶段
  • 第8章 GPGPU存储体系与线程管理
  • 8.1 GPGPU多级别存储体系
  • 8.1.1 大容量寄存器与倒金字塔结构
  • 8.1.2 不同时代NVIDIA GPU片上存储器容量
  • 8.1.3 GPGPU存储组织模式之合并访存
  • 8.1.4 GPGPU存储组织模式之板块冲突
  • 8.2 GPGPU线程管理
  • 8.2.1 GPU线程定义
  • 8.2.2 线程束宽度
  • 8.2.3 线程调度和管理
  • 8.2.4 线程块在线程管理中的作用
  • 8.2.5 SIMT堆栈与Volta架构对线程管理的改进
  • 8.2.6 Cooperative Group
  • 8.2.7 Hopper架构对线程管理的改进
  • 8.3 通用矩阵乘法与AI类任务
  • 8.3.1 利用线程块优化矩阵计算
  • 8.3.2 通过流实现任务级并行
  • 8.4 VLIW指令结构在GPU中的应用历史
  • 第9章 张量处理器设计
  • 9.1 张量的定义
  • 9.2 脉动阵列计算单元
  • 9.2.1 谷歌TPU处理器
  • 9.2.2 TPU v4芯片概览
  • 9.2.3 自研光学芯片用于TPU节点拓扑
  • 9.3 Volta架构引入张量核心
  • 9.3.1 张量核心设计细节
  • 9.3.2 张量核心数据加载与指令编译
  • 9.3.3 矩阵乘法访存优势与数据布局
  • 9.3.4 Ampere架构引入稀疏性张量加速
  • 9.3.5 Hopper架构改进张量内存加速器
  • 9.3.6 低精度性能增益
  • 9.4 华为昇腾Ascend 910 NPU芯片
  • 9.4.1 达芬奇架构AI Core分析
  • 9.4.2 拓扑互连能力
  • 9.4.3 CANN与AI框架MindSpore
  • 第10章 经典GPU算力芯片解读
  • 10.1 NVIDIA GPU芯片
  • 10.1.1 G80架构
  • 10.1.2 GT200架构
  • 10.1.3 Fermi架构
  • 10.1.4 Kepler架构
  • 10.1.5 Maxwell架构
  • 10.1.6 Pascal架构
  • 10.1.7 Volta架构
  • 10.1.8 Turing架构
  • 10.1.9 Ampere架构
  • 10.1.10 Hopper架构
  • 10.2 AMD GPU芯片
  • 10.2.1 TeraScale架构
  • 10.2.2 GCN架构
  • 10.2.3 RDNA架构
  • 10.3 Intel Xe GPU架构
  • 10.3.1 x86指令集Larrabee GPGPU
  • 10.3.2 Xe-core高端核心与EU低端核心
  • 10.3.3 子片和扩展结构
  • 10.3.4 超大芯片Ponte Vecchio
  • 第11章 存储与互连总线技术
  • 11.1 从DDR到HBM
  • 11.1.1 为更高带宽持续改进——GDDR
  • 11.1.2 新封装方式——HBM
  • 11.2 PCI Express总线概况
  • 11.2.1 由需求驱动的PCle总线发展历程
  • 11.2.2 PCle物理和数据链路层技术概览
  • 11.3 CXL扩展技术
  • 11.3.1 CXL的3个子协议
  • 11.3.2 CXL 2.0主要特性:内存池化
  • 11.3.3 CXL 3.0主要特性:内存共享、多级拓扑
  • 11.3.4 CXL协议细节
  • 11.3.5 CXL延迟拆解
  • 11.4 NVLink互连技术与GPU超级计算机
  • 11.4.1 Pascal架构第一代NVLink
  • 11.4.2 Volta架构第二代NVLink
  • 11.4.3 Ampere架构第三代NVLink
  • 11.4.4 Hopper架构第四代NVLink
  • 11.4.5 Grace Hopper超级芯片
展开全部

评分及书评

尚无评分
目前还没人评分

出版方

电子工业出版社

电子工业出版社成立于1982年10月,是国务院独资、工信部直属的中央级科技与教育出版社,是专业的信息技术知识集成和服务提供商。经过三十多年的建设与发展,已成为一家以科技和教育出版、期刊、网络、行业支撑服务、数字出版、软件研发、软科学研究、职业培训和教育为核心业务的现代知识服务集团。出版物内容涵盖了电子信息技术的各个分支及工业技术、经济管理、科普与少儿、社科人文等领域,综合出版能力位居全国出版行业前列。