AWS最强AI芯片！Trainium 2技术细节解析

7.30-8.1 全数会2025（第六届）机器人及智能工厂展
火热报名中>>

2024-12-12 14:20

芝能智芯

关注

芝能智芯出品

接昨天的文章（AWS不用英伟达GPU，打造与众不同的超级计算机），AWS推出的自研AI芯片Trainium及其升级版Trainium 2，正在重塑云计算和AI训练领域的格局，我们开始来看这颗芯片的细节。

Trainium 2以显著增强的性能和架构设计，填补了上一代芯片的不足，通过650 TFLOP/s的计算能力和96GB的HBM3内存支持，面向大规模生成式AI模型训练与推理。

随着Rainier项目中40万颗Trainium 2芯片的部署，AWS正在全球范围内推动ExaFLOPS级超级计算集群的应用。

我们来分析Trainium系列芯片的技术演进及其对AI计算未来的影响，并展望其迭代方向和AWS的战略潜力。

Part 1

从Trainium到Trainium 2：技术升级与核心改进

● 什么是Trainium处理器？

Trainium是AWS于2022年推出的首款AI加速器，旨在支持深度学习模型的训练和推理。

作为Inferentia的升级版，Trainium 1提供了一定的并行计算能力，但由于互连网络性能有限（NeuronLink-v2）、软件集成度不足，其在生成式AI（GenAI）训练中的竞争力不强。

Trainium 1在 GenAI 前沿模型训练或推理方面暴露出明显的短板，Trainium1 具备四个端口，而 Inferentia2 仅有两个，关键的问题在于其纵向和横向扩展网络缺乏竞争力，这一缺陷严重制约了它们在大规模 GenAI 训练任务中的表现。

众多软件错误的存在，也进一步干扰了客户工作负载的正常运行，使得这两款芯片难以在 GenAI 核心领域施展拳脚。

● Trainium 2的架构与设计改进

Trainium2 应运而生，成为 AWS 在 AI 芯片领域战略调整的关键棋子，设计目标明确指向复杂的 GenAI LLM 推理和训练工作负载，旨在弥补前代产品的不足，并在与其他竞品的竞争中占据一席之地。

变革的驱动力主要源于市场对高效、强大的 AI 芯片的迫切需求，以及 AWS 自身在 AI 领域扩张战略的推动。

Trainium 2采用了更高效的设计，每颗芯片包含两个计算芯片组和四个HBM3堆栈，支持96GB内存和高达46TB/s的带宽。

通过NeuralLink-v3网络，Trainium 2实现了芯片间更快速的通信，能够形成64芯片的3D环面拓扑。

● 性能提升：

◎ 计算能力：650 TFLOP/s的BF16性能（相比Trainium 1显著提升）。

◎ 扩展能力：支持Trn2-Ultra配置，可连接64颗芯片，形成大规模并行计算能力。

◎ 能效比：优化的互连网络设计显著降低了通信功耗，提升整体能效比。

Trainium2 是一款专为大规模AI模型训练和推理设计的高性能芯片，运行功耗约为500W，提供650 TFLOP/s的BF16性能，并配备96GByte HBM3e内存。

其NeuronLinkv3扩展网络通过铜背板实现高效的服务器内芯片间连接，每个芯片利用JBOG PCB上的PCB走线及32个PCIe Gen 5.0通道（每条通道32Gbit/s单向），与其他三个服务器内芯片通信，形成2x2x2x2超立方体网格结构，等同于4×4 2D环面。

这种拓扑确保了低延迟、高带宽的数据交互，特别适用于多芯片协同处理任务，如大规模矩阵运算。

在服务器间，NeuronLinkv3通过有源电缆连接四台物理服务器，构建一个64芯片的4x4x4 3D环面结构，Z轴带宽64GByte/s，X和Y轴带宽128GByte/s，支持高效张量并行和激活分片，提升集群计算能力。

Trainium2采用少量大型NeuronCore设计理念，对比传统GPU的小型张量核心，更适应GenAI工作负载。

● 每个NeuronCore包含：

◎ 张量引擎：128×128脉动阵列，承担主要计算任务。

◎ 矢量引擎：加速矢量运算，如softmax计算。

◎ 标量引擎：执行简单映射操作，如偏差添加。

◎ GPSIMD引擎：允许自定义C++代码执行，增强功能扩展性。

Trainium2拥有专用集体通信核心，优化芯片间通信效率，避免资源争用，减少通信延迟对整体训练效率的影响。然而，预先确定的资源比例可能限制其对不同工作负载的适应性，某些情况下可能导致资源闲置或成为性能瓶颈。

每个 Trainium2 芯片由两个计算芯片组和四个 HBM3e 内存堆栈组成。计算芯片组通过 CoWoS - S / R 封装与相邻的 HBM3e 堆栈通信，芯片的两半则通过 ABF 基板相互连接，封装结构在保证芯片内部数据传输效率的同时，也面临着一些挑战，如当计算芯片组访问非直接相邻的 HBM 堆栈内存时，性能会略有下降！

Trainium 2在硬件性能和扩展性上取得了重大突破，但其扩展网络的算术强度（225.9 BF16 FLOP/字节）仍低于Google TPUv6e和Nvidia H100的300-560 BF16 FLOP/字节，NeuronLink的拓扑规模（64芯片）也小于TPU的256芯片世界规模。

AWS通过优化软件堆栈和高效的扩展网络设计，弥补了部分差距，使Trainium 2成为一款兼具性能和成本优势的AI芯片。

Trainium2 和 Trainium2-Ultra 服务器采用独特设计，每个物理服务器占用18个机架单元（RU），由一个2U CPU托盘和八个2U计算托盘组成。这种架构通过无源铜背板以点对点方式连接计算托盘，形成4×4 2D环面结构，减少了传统交换机带来的延迟和带宽损耗。

每个计算托盘包含两个Trainium芯片，被称为“一堆GPU”（JBOG），依赖CPU托盘进行控制和数据交互。普通Trn2实例的计算托盘配备8个200G EFAv3 NIC，提供高达800Gbit/s的横向扩展带宽。

Trn2-Ultra SKU则专注于构建64芯片的纵向扩展网络，横向扩展带宽为200Gbit/s，通过有源电铜缆连接四台物理服务器，实现大规模集群扩展。CPU托盘内的PCIe交换机连接计算托盘与本地NVMe磁盘，使Trainium2能通过GPUDirect-Storage直接访问存储，提高数据读取速度。