面向 AI 全栈平台的AMD CDNA 4 架构

2025-06-17 10:49

芝能智芯出品

在 MI350 系列推出之际，AMD 同步发布了基于 CDNA 4 架构的新一代加速器，并配合 ROCm 7 软件栈进行全方位优化。

这一代产品从底层芯片设计、封装方式，到计算单元架构、内存拓扑和低精度计算格式，都进行了面向 AI 的系统性重构。

与上一代 MI300 系列相比，MI350 更加聚焦生成式 AI 任务和大语言模型推理，重心从传统 HPC 的 FP64 浮点计算，转向 FP4/FP6 等更适合 AI 的低精度算力表达方式，体现了 AMD 对下一阶段 AI 加速核心需求的深刻理解与转向。

Part 1

芯片架构设计：

从模块封装到计算单元的演进

MI350 的硬件基础沿用了 MI300 的多芯片模组思路，但在核心工艺与拓扑结构上做出了几处关键改变。

◎ 首先，加速器的计算芯片（XCD）由上一代的台积电 N5 工艺升级至更先进的 N3P 工艺。每颗 MI350 搭载 8 个 XCD，每个 XCD 集成 8 个 32-bit 的 CDNA 4 计算单元，共计 256 个计算单元。

这一数字看似低于 MI300X 的完整堆叠，但 AMD 表示在 CDNA 4 中每个计算单元的性能得到了增强，从而在减少晶体管堆叠数量的同时提升总体算力密度。

◎ 在封装方面，MI350 仍采用 3D 芯粒堆叠设计，在计算芯片与 I/O 芯片（IOD）之间加入中介层（interposer）作为互联桥梁。

不过，不同于 MI300 系列的“四 IOD”结构，新架构中 IOD 数量被简化为两个，每个 IOD 覆盖更广泛的内存和计算单元连接范围，从而降低跨 IOD 通信的延迟和功耗。

每颗 IOD 集成 Infinity Fabric 总线与 Infinity Cache，以支持高速互联和共享缓存逻辑，这对于内存密集型的 AI 负载尤其重要。

◎ 在整体封装功耗方面，风冷 MI350X 对应 1kW 的热设计功耗，而液冷版本 MI355X 则可扩展至 1.4kW，允许构建最大支持 128 个 GPU 的液冷系统方案。

该设计基于 OCP UBB（Universal Base Board）标准平台，利于与其他供应商协同设计统一化数据中心部署结构。

◎ 从机架利用率来看，采用 16 个 UBB 托盘构建的大规模系统，在标准 48U 机架内可实现 128 个 GPU 的集成密度，显著优于 NVIDIA GB200 的 NVL72 设计，这一物理集成优势将成为 AI 工厂部署中的关键考量因素。

CDNA 4 通过先进工艺节点、精简 IOD 拓扑、模块化封装和更高能效比的计算单元实现对低精度 AI 加速的性能强化，为 MI350 提供了结构化的性能提升空间，同时优化了系统部署的热功耗密度与机架空间利用效率。

Part 2

数据格式重构与软件栈协同优化：

面向低精度 AI 推理的跃迁

MI350 系列的核心优势不仅体现在硬件结构的更新，更关键的是其对数据格式支持的全面重塑。

在 CDNA 4 中，AMD 弃用了传统 HPC 计算中占主导地位的 FP64 精度，转而以 FP4 和 FP6 为主打格式。

这两种低精度浮点格式在大语言模型（LLM）和生成式 AI 负载中具有更高的计算密度与能效比。

在实现路径上，AMD 并未简单采用 FP8 单元来模拟低精度运算，而是选择在硬件层面直接新增 FP4 和 FP6 流水线逻辑，从而实现更高的原生吞吐能力。

这一策略虽然增加了晶体管规模和硬件复杂度，但显著提升了 FP6 格式下的性能，特别适用于 GPT、DeepSeek 等大规模模型推理场景。

配套软件方面，ROCm 7 的同步发布是本轮架构升级的重要补充。

ROCm 7 提供了全新的安装体验（如 pip install rocm）、改进的性能调度机制以及更广泛的系统兼容性，包括对 Windows 无需 WSL 的直接支持，这对于开发者环境的搭建效率提升极大。

同时，AMD 正在构建完整的 AI 开发者云平台，并推动企业级 AI 生态系统发展，意图以 ROCm 为纽带将硬件优势转化为实际开发生产力。

ROCm 7 还首次展示了笔记本端的支持路径，这意味着未来 Ryzen AI 系统将有望直接搭载 ROCm 工具链，打通从边缘设备到数据中心的完整开发路径。

在 MI355X 对 Deepseek R1 等模型的基准测试中，AMD 宣称其 FP8 性能已可对标甚至超过 NVIDIA B200，显示出该平台在特定场景下的竞争力。

通过构建原生 FP4/FP6 运算单元、强化大带宽内存接口，以及配套推出 ROCm 7 工具链，AMD 将 MI350 系列从传统通用计算架构彻底转向面向 AI 推理与训练的专用加速平台。

硬件与软件的协同设计，构建出适配未来主流 AI 工作负载的技术堆栈。

小结

AMD 对 AI 加速器发展方向的战略重构，从晶体管排布到互联架构，从数据格式到软件接口，CDNA 4 架构展现出 AMD 聚焦 AI 推理、强化低精度性能的技术路线转型。

ROCm 7 的全平台布局，也为开发者社区提供了更加清晰和实用的生态基础。这套以 MI350、CDNA 4、ROCm 7 为核心的新体系， AMD 正在构建涵盖芯片设计、系统封装、软件生态和开发者工具链的全栈平台。

原文标题 : 面向 AI 全栈平台的AMD CDNA 4 架构

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

立即登录即可访问所有OFweek服务

忘记密码

其他方式

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻

行业报告