NVIDIA历代芯片架构简述

1999 年，英伟达发明了 GPU（graphics processing unit），英伟达 GPU 从 Fermi 到 Blackwell 共 9 代架构，时间跨度从 2010 年至 2024 年，具体包括费米（Feimi）、开普勒（Kepler）、麦克斯韦（Maxwell）、帕斯卡（Pashcal）、伏特（Volt）、图灵（Turing）、安培（Ampere）和赫柏（Hopper）和布莱克韦尔（Blackwell）架构。经过 15 年的发展，CUDA 已成为英伟达的技术“护城河”，Tensor Core5.0，NVLink5.0，NVswitch4.0，Transformer Engine2.0 等技术迭代更新，正如英伟达公司官方宣传语所言：人工智能计算领域的领导者，推动了 AI、HPC、游戏、创意设计、自动驾驶汽车和机器人开发领域的进步。

架构	发布时间	核心参数	特点&优势
Fermi	2010	16 个 SM，每个 SM 包含 32 个 CUDA Cores，一共 512 CUDA Cores	首个完整 GPU 计算架构，支持与共享存储结合的 Cache 层次 GPU 架构，支持 ECC GPU 架构
Kepler	2012	16 个 SM，每个 SM 包含 32 个 CUDA Cores，一共 512 CUDA Cores	游戏性能大幅提升，首次支持 GPU Direct 技术
Maxwell	2014	16 个 SM，每个 SM 包括 4 个处理块，每个处理块包括 32 个 CUDA Cores+8 个 LD/ST Unit + 8 SFU	每组 SM 单元从 192 个减少到每组 128 个，每个 SMM 单元拥有更多逻辑控制电路
Pascal	2016	GP100 有 60 个 SM，每个 SM 包括 64 个 CUDA Cores，32 个 DP Cores	NVLink 第一代，双向互联带宽 160GB/s，P100 拥有 56 个 SM HBM
Volta	2017	80 个 SM，每个 SM 包括 32 个 FP64+64 Int32+64 FP32+8 个 Tensor Cores	NVLink2.0，Tensor Cores 第一代，支持 AI 运算，NVSwitch1.0
Turing	2018	102 核心 92 个 SM，SM 重新设计，每个 SM 包含 64 个 Int32+64 个 FP32+8 个 Tensor Cores	Tensor Core2.0，RT Core 第一代
Ampere	2020	108 个 SM，每个 SM 包含 64 个 FP32+64 个 INT32+32 个 FP64+4 个 Tensor Cores	Tensor Core3.0，RT Core2.0，NVLink3.0，结构稀疏性矩阵 MIG1.0
Hopper	2022	132 个 SM，每个 SM 包含 128 个 FP32+64 个 INT32+64 个 FP64+4 个 Tensor Cores	Tensor Core4.0，NVLink4.0，结构稀疏性矩阵 MIG2.0
Blackwell	2024	160个SM	Tensor Core5.0，NVLink5.0, 第二代 Transformer 引擎，支持 RAS

Hopper 架构是第一个真正的异构加速平台，适用于高性能计算（HPC）和 AI 工作负载。英伟达 Grace CPU 和英伟达 Hopper GPU 实现英伟达 NVLink-C2C 互连，高达 900 GB/s 的总带宽的同时支持 CPU 内存寻址为 GPU 内存。NVLink4.0 连接多达 256 个英伟达 Grace Hopper 超级芯片，最高可达 150 TB 的 GPU 可寻址内存。

H100 一共有 8 组 GPC、66 组 TPC、132 组 SM，总计有 16896 个 CUDA 核心、528 个 Tensor 核心、50MB 二级缓存。显存为新一代 HBM3，容量 80 GB，位宽 5120-bit，带宽高达 3 TB/s。

2024 年 3 月，英伟达发布 Blackwell 架构，专门用于处理数据中心规模的生成式 AI 工作流，能效是 Hopper 的 25 倍，新一代架构在以下方面做了创新：

新型 AI 超级芯片：Blackwell 架构 GPU 具有 2080 亿个晶体管，采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片，通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。
第二代 Transformer 引擎：将定制的 Blackwell Tensor Core 技术与英伟达 TensorRT-LLM 和 NeMo 框架创新相结合，加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。
第五代 NVLink：为了加速万亿参数和混合专家模型的性能，新一代 NVLink 为每个 GPU 提供 1.8TB/s 双向带宽，支持多达 576 个 GPU 间的无缝高速通信，适用于复杂大语言模型。
RAS 引擎：Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能恢复能力，以识别早期可能发生的潜在故障，从而更大限度地减少停机时间。
安全 AI：内置英伟达机密计算技术，可通过基于硬件的强大安全性保护敏感数据和 AI 模型，使其免遭未经授权的访问。
解压缩引擎：拥有解压缩引擎以及通过 900GB/s 双向带宽的高速链路访问英伟达 Grace CPU 中大量内存的能力，可加速整个数据库查询工作流，从而在数据分析和数据科学方面实现更高性能。

英伟达 GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的片间互联，将两个英伟达 B200 Tensor Core GPU 与英伟达 Grace CPU 相连。在 90 天内训练一个 1.8 万亿参数的 MoE 架构 GPT 模型，需要 8000 个 Hopper 架构 GPU，15 兆瓦功率，Blackwell 架构只需要 2000 个 GPU，以及 ¼ 的能源消耗。

TensorCore

Volta

2017年，NVIDIA推出了划时代的 Volta 架构，并首次在 Tesla V100 GPU 中引入了名为 Tensor Core（张量核心）的专用计算单元。

Volta之前的MMA

对于传统GPU做矩阵乘法，“指令开销”远大于“计算开销”；

在Volta之前，GPU虽然广泛用于深度学习训练，但其核心计算仍依赖通用的CUDA核心执行浮点运算。以半精度（FP16）的融合乘加（HFMA）操作为例：

一次简单的浮点乘加仅消耗约1.5皮焦（pJ）的能量；

而驱动这条指令所需的控制逻辑开销——包括指令发射、调度、寄存器访问等——却高达 30皮焦（pJ）。

这意味着：95% 的能耗花在了“如何算”，而不是“算本身”。这种“指令功耗远高于计算功耗”的失衡，严重制约了AI训练的能效比和可扩展性。

volta解决指令开销：HMMA + TensoreCore

引入HMMA指令

Volta新增了一条全新的指令：HMMA（Half Precision Matrix Multiply-Accumulate）。

它不再处理单个数字，而是直接操作小规模矩阵块（如8x8），将数十次独立的乘加操作打包成一条指令执行。这样极大减少了指令调度次数。

TensorCore硬件落地

每个SM（流式多处理器）集成 8 个 Tensor Core；每4个线程组成一个“quadpair”，8个线程协同驱动一个Tensor Core；单次执行可完成 8×8×4 的矩阵乘法（A[8×4] × B[4×8] = C[8×8]），输出FP32精度结果。支持 FP16 输入 + FP32 累加，兼顾速度与数值稳定性。

Turing

Volta的缺陷在于，对于功耗、延迟、成本等方面敏感的部署场景，使用FP16仍然笨重，且需要完整权重计算，无法利用神经网络的稀疏性。

Turing解决方案：整数精度 + 稀疏计算

INT8/INT4支持

使用8位或4位整数表示权重和激活值，显著降低存储和计算开销。

结构化稀疏化

硬件级支持跳过零值计算，编译过程自动将网络压缩为稀疏模式。

Ampere

前两代遗留的性能瓶颈在于：寄存器压力过大，内存带宽浪费严重。

数据从全局内存加载到共享内存时，必须先经过寄存器文件中转，而TensorCore执行MMA指令本身也需要大量寄存器来存储矩阵分块。由于寄存器资源有限，这会导致严重的资源竞争，并且还进行了两次的数据复制，浪费了宝贵的内存带宽。

Ampere创新：异步数据拷贝与warp级MMA同步

异步数据拷贝

Ampere 新方式中，数据可以直接从全局内存搬移到共享内存，完全绕开寄存器文件

Warp级MMA

对Tensor Core的线程调度模型，Ampere引入了 Warp宽度的MMA指令。

Volta 的复杂协作原理：需要 8个线程（4个“quadpair”）协同执行一次8x8x4矩阵运算，线程分工精细、编程模型复杂的情况下，容易出错。

Ampere 做了下面的简化设计：每次MMA操作由一个完整Warp（32个线程）协同完成，每个Tensor Core每周期执行 512 FLOP 的密集计算，每个SM（流式多处理器）集成 4个Tensor Core，那么每周期可达 2048 FLOP 的FP16算力，这是Volta SM性能的整整两倍。下图是 16x8x16 形状的混合精度浮点的线程和数据布局：

Hopper

Hopper通过分布式共享内存架构、异步批量内存传输和混合精度动态调度，系统性地解决了AI大模型训练中的跨设备协同、显存带宽限制及精度-效率权衡三大难题。

并行计算层级扩展

Hopper架构中，线程块集群（CGA）是新增的中间层次，将多个流式多处理器（SM）按物理位置分组到同一图形处理集群（GPC）内。每个集群内的CTA（线程块）被固定分配到对应的SM，并共享一个低延迟的分布式共享内存（DSMEM），允许线程直接访问其他SM的共享内存（无需经过全局内存或L2缓存）。这种设计通过硬件级协同调度，让多个SM上的线程能高效协作、共享数据，既减少了跨SM的数据搬运开销，又提升了计算局部性——就像把原本分散在不同房间的工人集中到一个车间，既能快速传递工具，又能统一指挥作业。如下图所示：

异步内存拷贝

新增张量内存加速器（TMA），以块坐标寻址替代传统地址直接寻址，支持1D-5D张量布局的异步批量传输。TMA通过以下方式缓解内存墙问题：

异步执行，即数据复制由TMA独立完成，释放线程算力执行计算任务，避免CPU/GPU空等；

多播模式：同一数据可同时传输至多个目标地址，减少L2缓存和HBM的重复读取流量；

压缩传输：通过块级管理降低冗余寻址开销，提升显存带宽利用率（H200显存带宽达4.8TB/s）。

精度与效率平衡：FP8与warpgroup级MMA

四代Tensor Core引入FP8（E4M3/E5M2）低精度格式，结合FP32/FP16累加路径，在保持模型精度的前提下，将存储需求减半、吞吐量翻倍。同时支持warpgroup级异步MMA（wgmma）：4个warp组成warpgroup，可执行更大规模矩阵运算（如m64n256k16），提升算力密度。又可以支持动态精度切换（Transformer引擎）：根据网络层需求自动在FP8、FP16等格式间转换，兼顾训练速度与推理精度（如LLM推理速度较H100提升30倍）。

BlackWell

寄存器压力终结

引入256KB SM级张量内存（TMEM），以warpgroup为单位访问，每个warp仅操作特定存储通道，硬件端口需求减少30%。操作数直接从共享内存/TMEM读取，彻底摒弃寄存器存储矩阵。

CTA对机制

两个CTA共享相同操作数，内存带宽需求降低50%（如LLM推理中激活层共享）；MMA.2SM模式：跨两个SM协作执行MMA，M维度翻倍，突破单SM算力限制。

精度-效率新平衡

NVFP4：两级量化（块内+块间）精度优于MXFP4，存储需求减半。