2024年再怎么重视“异构芯片”都不为过

4日10日 OFweek 2025（第十四届）中国机器人产业大会
立即报名 >>>
7.30-8.1 全数会2025（第六届）机器人及智能工厂展
火热报名中>>

2024-02-26 09:18

Ai芯天下

关注

前言：

进入大模型时代，全社会算力需求被推高到了前所未有的程度。

由于大模型AI对于全社会的重要性，以及各行各业加快建设智算中心，也引发了全社会学习异构AI芯片的热潮。

作者 | 方文三

图片来源 | 网络

异构AI芯片出现的现象

2024年1月，微软联合创始人比尔·盖茨与OpenAI首席执行官山姆·奥特曼进行了一次对话，奥特曼在对话中表示人工智能将引发人类历史上“最快”的一次技术革命，人类可能还没有准备好以多快的速度适应这种变革。

奥特曼预计，这项技术将迅速发展，使系统的计算能力达到GPT-4的10万倍或100万倍。

简单来说，用于人工智能计算的英伟达GPU芯片远远不够用了。

而为应对GPU全球供应短缺问题，以及美国对GPU的出口限制问题，当然更重要的是在AI场景下降低成本，于是市场上涌现了各类异构AI芯片。

何为异构芯片

异构芯片即结合两种或多种不同类型的处理器或控制器架构的芯片。

异构芯片可以是CPU+FPGA，CPU+GPU也可以是CPU+AI，也可以是CPU+动态可重构等不同架构，这些架构都是利用一种架构的优势来弥补另外一种架构的不足，以适应用户多种用途的应用需求。

Intel的CPU+Altera的FPGA或者AMD的Instinct MI300和英伟达的Grace Hopper超级芯片也是采用“CPU+GPU”的异构形式。

CPU+GPU架构的优势

CPU和GPU协同工作时，CPU包含几个专为串行处理而优化的核心，GPU则由数以千计更小、更节能的核心组成，这些核心专为提供强劲的并行运算性能而设计。

程序的串行部分在CPU上运行，而并行部分则在GPU上运行。

GPU目前已经发展到成熟阶段，可轻松执行现实生活中的各种应用程序，而且程序运行速度已远远超过使用多核系统时的情形。

因此，CPU和GPU的结合刚好可以解决深度学习模型训练在CPU上耗时长的问题，提升深度学习模型的训练效率。

CPU与GPU的应用场景也不断拓宽

随着CPU与GPU的结合，其相较于单独CPU与GPU的应用场景也不断拓宽。

CPU+GPU架构适用于处理高性能计算。伴随着高性能计算类应用的发展，驱动算力需求不断攀升，但目前单一计算类型和架构的处理器已经无法处理更复杂、更多样的数据。

数据中心如何在增强算力和性能的同时，具备应对多类型任务的处理能力，成为全球性的技术难题。

CPU+GPU的异构并行计算架构作为高性能计算的一种主流解决方案，受到广泛关注。

CPU+GPU架构适用于处理数据中心产生的海量数据。数据爆炸时代来临，使用单一架构来处理数据的时代已经过去。

比如：个人互联网用户每天产生约1GB数据，智能汽车每天约50GB，智能医院每天约3TB数据，智慧城市每天约50PB数据。

数据的数量和多样性以及数据处理的地点、时间和方式也在迅速变化。无论工作任务是在边缘还是在云中，不管是人工智能工作任务还是存储工作任务，都需要有正确的架构和软件来充分利用这些特点。

CPU+GPU架构可以共享内存空间，消除冗余内存副本来改善问题。

在此前的技术中，虽然GPU和CPU已整合到同一个芯片上，但是芯片在运算时要定位内存的位置仍然得经过繁杂的步骤，这是因为CPU和GPU的内存池仍然是独立运作。

为了解决两者内存池独立的运算问题，当CPU程式需要在GPU上进行部分运算时，CPU都必须从CPU的内存上复制所有的资料到GPU的内存上，而当GPU上的运算完成时，这些资料还得再复制回到CPU内存上。

然而，将CPU与GPU放入同一架构，就能够消除冗余内存副本来改善问题，处理器不再需要将数据复制到自己的专用内存池来访问/更改该数据。

统一内存池还意味着不需要第二个内存芯片池，即连接到CPU的DRAM。

因此，通过CPU+GPU异构并行计算架构组成的服务器，正成为服务器市场中的一匹黑马。现在已有多家芯片厂商开始跟进。

协同异构AI芯片的挑战

在实际建设智算中心的时候，到底在GPU、FPGA、DSA和ASIC之间选择哪种算力和算力组合，这是一个很大的问题。

GPU虽然能够应对大模型计算需求，但一卡难求以及限制性能等问题严重；

DSA灵活性有限，硬件和软件架构呈现碎片化；

FPGA的功耗和成本较高，主要用于原型验证，难以在实际场景中大规模落地；

ASIC功能固化，缺乏足够的灵活性，而且ASIC芯片的研发周期长、成本高和风险大等，都为大规模和长期采用带来了挑战。

另外，多异构计算的硬件层次高集成度和系统软件层次多协同、通用编程模型和开发环境等，都是行业需要解决的问题，多异构共存的异构计算孤岛现象越来越突显。

特别是不同的异构计算编程框架，要求开发者掌握多种编程模式和语言，使得代码移植面临巨大挑战。

寻找一个真正统一、能满足所有硬件和应用需求的编程方法，仍是当下计算领域的热门研究课题。

结尾：可发展产业机遇

大模型AI的出现，为重构数据中心带来了机遇。由于大模型AI天然带来海量的数据中心内部通信而不是对外通信，在将数据中心重构为智算中心的时候，就带来了“一个数据中心即为一台计算机”的设计理念，这就是以系统设计为中心的原则。

以系统设计为中心，即考虑一个数据中心上承载大模型训练等逻辑上单一的“大应用”，也就是数据中心级的业务系统。

因此在智算中心的设计上要超越硬件和软件的传统界限，将整个数据中心作为一个协同工作的系统。

有了以数据中心为一台计算机的设计理念和角度，就能找到有效的软硬件协同的异构融合计算之路。

内容及图片来源于：晶上联盟：AI芯片进入“繁花”时代，异构集成涌现产业机遇；Robei：十问异构芯片；半导体产业纵横：CPU+GPU异构计算成芯片巨头新宠

原文标题 : AI芯天下丨趋势丨2024年再怎么重视“异构芯片”都不为过

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

登录登录即可访问所有OFweek服务

用户名/邮箱/手机：
密码：
忘记密码？
用其他账号登录： QQ | 微信 | 新浪微博

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

美国southland OEM氧气变送板TO2系列-EMD-485

图片新闻

技术文库

LCS2110R-S单总线协议说明

行业报告

4日10日 OFweek 2025（第十四届）中国机器人产业大会

7.30-8.1 全数会2025（第六届）机器人及智能工厂展

发表评论