侵权投诉
订阅
纠错
加入自媒体

面向 AI 全栈平台的AMD CDNA 4 架构

2025-06-17 10:49
芝能智芯
关注

芝能智芯出品

在 MI350 系列推出之际,AMD 同步发布了基于 CDNA 4 架构的新一代加速器,并配合 ROCm 7 软件栈进行全方位优化。

这一代产品从底层芯片设计、封装方式,到计算单元架构、内存拓扑和低精度计算格式,都进行了面向 AI 的系统性重构。

与上一代 MI300 系列相比,MI350 更加聚焦生成式 AI 任务和大语言模型推理,重心从传统 HPC 的 FP64 浮点计算,转向 FP4/FP6 等更适合 AI 的低精度算力表达方式,体现了 AMD 对下一阶段 AI 加速核心需求的深刻理解与转向。

Part 1

  芯片架构设计:

从模块封装到计算单元的演进

MI350 的硬件基础沿用了 MI300 的多芯片模组思路,但在核心工艺与拓扑结构上做出了几处关键改变。

 首先,加速器的计算芯片(XCD)由上一代的台积电 N5 工艺升级至更先进的 N3P 工艺。每颗 MI350 搭载 8 个 XCD,每个 XCD 集成 8 个 32-bit 的 CDNA 4 计算单元,共计 256 个计算单元。

这一数字看似低于 MI300X 的完整堆叠,但 AMD 表示在 CDNA 4 中每个计算单元的性能得到了增强,从而在减少晶体管堆叠数量的同时提升总体算力密度。

 在封装方面,MI350 仍采用 3D 芯粒堆叠设计,在计算芯片与 I/O 芯片(IOD)之间加入中介层(interposer)作为互联桥梁。

不过,不同于 MI300 系列的“四 IOD”结构,新架构中 IOD 数量被简化为两个,每个 IOD 覆盖更广泛的内存和计算单元连接范围,从而降低跨 IOD 通信的延迟和功耗。

每颗 IOD 集成 Infinity Fabric 总线与 Infinity Cache,以支持高速互联和共享缓存逻辑,这对于内存密集型的 AI 负载尤其重要。

 在整体封装功耗方面,风冷 MI350X 对应 1kW 的热设计功耗,而液冷版本 MI355X 则可扩展至 1.4kW,允许构建最大支持 128 个 GPU 的液冷系统方案。

该设计基于 OCP UBB(Universal Base Board)标准平台,利于与其他供应商协同设计统一化数据中心部署结构。

 从机架利用率来看,采用 16 个 UBB 托盘构建的大规模系统,在标准 48U 机架内可实现 128 个 GPU 的集成密度,显著优于 NVIDIA GB200 的 NVL72 设计,这一物理集成优势将成为 AI 工厂部署中的关键考量因素。

CDNA 4 通过先进工艺节点、精简 IOD 拓扑、模块化封装和更高能效比的计算单元实现对低精度 AI 加速的性能强化,为 MI350 提供了结构化的性能提升空间,同时优化了系统部署的热功耗密度与机架空间利用效率。

Part 2

  数据格式重构与软件栈协同优化:

面向低精度 AI 推理的跃迁

MI350 系列的核心优势不仅体现在硬件结构的更新,更关键的是其对数据格式支持的全面重塑。

在 CDNA 4 中,AMD 弃用了传统 HPC 计算中占主导地位的 FP64 精度,转而以 FP4 和 FP6 为主打格式。

这两种低精度浮点格式在大语言模型(LLM)和生成式 AI 负载中具有更高的计算密度与能效比。

在实现路径上,AMD 并未简单采用 FP8 单元来模拟低精度运算,而是选择在硬件层面直接新增 FP4 和 FP6 流水线逻辑,从而实现更高的原生吞吐能力。

这一策略虽然增加了晶体管规模和硬件复杂度,但显著提升了 FP6 格式下的性能,特别适用于 GPT、DeepSeek 等大规模模型推理场景。

配套软件方面,ROCm 7 的同步发布是本轮架构升级的重要补充。

ROCm 7 提供了全新的安装体验(如 pip install rocm)、改进的性能调度机制以及更广泛的系统兼容性,包括对 Windows 无需 WSL 的直接支持,这对于开发者环境的搭建效率提升极大。

同时,AMD 正在构建完整的 AI 开发者云平台,并推动企业级 AI 生态系统发展,意图以 ROCm 为纽带将硬件优势转化为实际开发生产力。

ROCm 7 还首次展示了笔记本端的支持路径,这意味着未来 Ryzen AI 系统将有望直接搭载 ROCm 工具链,打通从边缘设备到数据中心的完整开发路径。

在 MI355X 对 Deepseek R1 等模型的基准测试中,AMD 宣称其 FP8 性能已可对标甚至超过 NVIDIA B200,显示出该平台在特定场景下的竞争力。

通过构建原生 FP4/FP6 运算单元、强化大带宽内存接口,以及配套推出 ROCm 7 工具链,AMD 将 MI350 系列从传统通用计算架构彻底转向面向 AI 推理与训练的专用加速平台。

硬件与软件的协同设计,构建出适配未来主流 AI 工作负载的技术堆栈。

小结

AMD 对 AI 加速器发展方向的战略重构,从晶体管排布到互联架构,从数据格式到软件接口,CDNA 4 架构展现出 AMD 聚焦 AI 推理、强化低精度性能的技术路线转型。

ROCm 7 的全平台布局,也为开发者社区提供了更加清晰和实用的生态基础。这套以 MI350、CDNA 4、ROCm 7 为核心的新体系, AMD 正在构建涵盖芯片设计、系统封装、软件生态和开发者工具链的全栈平台。

       原文标题 : 面向 AI 全栈平台的AMD CDNA 4 架构

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    电子工程 猎头职位 更多
    扫码关注公众号
    OFweek电子工程网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号