首个纯国产GPU的万卡集群亮相，试图群体突破

7.30-8.1 全数会2025（第六届）机器人及智能工厂展
火热报名中>>

2024-07-11 09:13

Ai芯天下

关注

前言：

近年来，大语言模型领域取得了显著的发展，随之而来的是对算力资源需求的急剧增加。

然而，在当前的市场环境下，如英伟达A100等高端GPU的供应紧张，成为了行业面临的一大挑战。

尽管如此，这一困境也为众多国产算力厂商带来了寻找新型替代方案的机遇，促使他们积极寻求创新突破。

作者 | 方文三

图片来源 | 网络

AI大模型的主战场，万卡已是标配

去年5月，Google正式推出的A3 Virtual Machines超级计算机，配备了高达26,000块Nvidia H100 GPU，并辅以自研芯片构建的TPUv5p 8960卡集群。

至今年3月，Meta公开分享了其最新的两个AI训练集群，两者均集成了24,576个Nvidia Tensor Core H100 GPU，相较于前一代的16,000块，有了显著的增长。

OpenAI所开发的ChatGPT-4则包含16个专家模型，共计1.8万亿参数，其单次训练过程需要在约25,000个A100上持续90至100天。

大模型行业的发展日新月异，客户对于训练速度有着极高的期待，普遍希望能在两周内完成训练，最晚也应在一个月内完成。

以训练一个5000亿参数模型，涉及15TB数据为例，若仅拥有1000P算力，该过程将需要长达三年。

而若将时间限定在两周或一个月内，则至少需要10000P的算力作为保障。

在国际市场上，GPT-4这一拥有1.8万亿参数的庞大模型，其训练过程需消耗25000张A100 GPU并持续100天。

若以H100为基准，这一需求将缩减至1000张。

今年，Meta推出了两个配备24576张H100的集群，以支持Llama 3等新模型的训练。

本周，马斯克透露，新版Grok 3的训练过程使用了高达10万张H100 GPU。

回顾去年，华为昇腾AI集群的规模已扩展至16000卡；随后，科大讯飞在10月宣布启动万卡集群算力平台[飞星一号]。

今年3月，天翼云在上海临港启用了国产万卡算力池；4月，中国移动宣布今年将商用3个自主可控的万卡集群。

各大云计算厂商纷纷加大投入，将大模型训练集群的规模推向了10万卡量级。

综上所述，超万卡集群已成为大模型预训练的标配，对于基础设施厂商而言，是否拥有万卡集群将成为其在AI领域竞争中取得成功的关键要素。

首个纯国产GPU的万卡集群来了

在2024世界人工智能大会即将召开之际，摩尔线程于7月3日宣布，其夸娥（KUAE）智算集群解决方案已实现显著的技术跃升，由原先的千卡规模显著扩展至万卡级别，以支持大规模模型的运算需求。

这一升级旨在为大模型，特别是达到万亿参数级别的模型训练，提供持久、高效、稳定及广泛适用的通用算力支撑。

值得强调的是，摩尔线程作为国内首家接入无问芯穹并进行大模型训练的国产GPU公司，其夸娥智算集群已成为业内首个成功运行并完整支撑国产大模型的集群系统。

目前，包括智谱 AI、智源研究院、北大兔展、滴普科技、师者AI、羽人科技、乐创能源、瑞莱智慧、实在智能、积沙成塔、憨猴集团、亿景智联等在内的多家国内大模型企业，均已成功部署并运行于摩尔线程的夸娥智算集群之上。

夸娥万卡智算集群的三大核心优势在于其卓越的计算效率、高度稳定性和出色的生态兼容性。

该集群采用自研全功能GPU，通过计算加速卡、服务器、超融合一体机等组件的灵活组合，形成了高效能的小集群，进而构建出大集群，其线性加速比超过91%，满足了客户根据自身建设规划进行扩容的需求。

此外，摩尔线程还高度重视软件层面的优化与管理。为了确保万卡集群的高效管理、调试和使用，公司推出了一系列全栈AI软件，包括加速引擎和便捷的管理平台，并支持用户进行7×24小时的远程监控。

除了自研全功能GPU外，摩尔线程还与国内CPU、操作系统厂商紧密合作，共同打造了基于中国自主创新技术的PES完美体验系统联盟。

好用=规模够大+计算通用+生态兼容

这正是最新夸娥（KUAE）万卡集群所具备的五大显著特点。

①夸娥万卡集群展现了万卡万P的超大算力。具体而言，经过升级后，该集群已达到单集群规模超万卡，浮点运算能力高达10Exa-Flops。

②在GPU显存和传输带宽方面，显存容量提升至PB级，卡间互联总带宽和节点互联总带宽同样达到PB级，实现了算力、显存和带宽的系统性协同优化，从而全面提升了集群计算性能。

③有效计算效率（MFU）是夸娥万卡集群的另一大优势。

MFU作为评估大型模型训练效率的关键指标，直观反映了整个集群的训练效率。

夸娥万卡集群通过系统软件、框架和算法等多个层面的深入优化，成功实现了对大型模型的高效训练，MFU值最高可达60%。

在系统软件层面，采用计算与通信效率的极致优化技术，显著提升了集群的执行效率和性能；

在框架和算法层面，该集群支持多种自适应的混合并行策略和高效的显存优化技术，可根据具体需求自动选择并配置最佳并行策略，从而显著提升训练效率和显存利用率。

④夸娥万卡集群在处理超长序列的大型模型时，通过CP并行技术和环形注意力机制等优化手段，有效减少了计算时间和显存使用，进一步提升了集群的训练效率。

⑤夸娥万卡集群在通用性和生态友好性方面表现出色。

该集群专为通用计算场景量身定制，能够为LLM、MoE、多模态和Mamba等多种架构和模态的大型模型提供加速支持。

同时，采用高效且用户友好的MUSA编程语言，并完全兼容CUDA，配合自动化迁移工具Musify，实现新模型的即时[Day0]级迁移，确保了生态系统的即时适配性。

[集群]弥补[单卡]是解决算力荒的路径

随着大模型训练与推理需求呈几何级数爆发，再加上GPU供应存在干扰，算力芯片的供求缺口相当巨大。

[N卡难求]现象已催生抢购与囤货热潮，同时市场上鲜有与国际巨头单卡性能直接对标的产品。

目前，我国智能算力市场面临严重的供需失衡，大模型对算力的需求增长已显著超越单颗AI芯片性能的提升速度。

因此，通过集群互联来弥补单卡性能不足，成为当前亟待探索并解决AI算力匮乏问题的关键途径。

鉴于多重因素的叠加影响，以及国产大模型对构建AI产业商业闭环的迫切需求，构建具有自主创新和本土化特色的集群已刻不容缓。

未来，国内智算中心在搭建集群时将面临两大选择。

①采用国内外芯片[混搭]的集群模式，这对系统优化提出了高要求，[最短的木板]可能制约整体算力效率的充分发挥，预计需要长时间的优化与磨合才能找到最佳路径；

②采用国产化的集群模式，在保障[能用]的基础上，不断追求[好用]，以实际成果推动自主创新的深入发展。

过去一年，我国千P级智算中心的智算基建布局已呈爆发式增长。

当前，国内万卡智算中心尚处于发展初期，面临诸多挑战。

因此，国产AI算力的发展机遇主要在于千卡以上的集群及其背后的软件生态。

万卡集群建设还面临五重挑战

目前，超万卡集群的建设尚处于初始阶段，其核心构建主要依托于英伟达GPU及其相关配套设施。

作为全球GPU市场的佼佼者，英伟达的产品在大规模模型训练领域展现出了显著的优势。

在政策和市场需求的双重推动下，国产AI芯片在近两年来取得了显著的进步。

然而，从整体性能和生态系统构建的角度来看，国产芯片仍存在一定的差距。

因此，在构建基于国产技术生态、具备技术领先地位的超万卡集群方面，我们仍面临诸多挑战与困难。

①极致算力挑战：集群规模提升不等于算力线性提升，关键在于互联网络和软硬件适配调优。需运用系统工程方法，精细化设计网络和软硬件整合优化。

②海量数据处理挑战：未来模型训练对数据处理性能有极高要求，需通过协议融合、自动分级等技术手段提升数据共享和处理能力。

③超大规模互联挑战：模型规模扩大要求高性能互联网络支持大模型的数据吞吐和计算需求。

④高稳定性与高效率挑战：大模型训练中稳定性和效率至关重要，需优化以缩短故障恢复时间，确保稳定高效训练。

国产软件生态挑战：国内已有多家公司推出国产AI芯片，但软件生态不佳，需加强关键软件的研发和完善，提高生态繁荣度。

结尾：

随着从千卡集群到万卡集群的演进，以及从[模型]竞争转向[应用]竞争的趋势，业界对高效、可持续的算力需求日益迫切，以满足多样化的新计算任务。

在这些新需求的驱动下，新型万卡智算中心，即芯片系统的组合体，已成为推动大模型产业落地的关键力量，并已成为大国间AI竞争的基础设施标配。

部分资料参考：量子位：《首个国产全功能GPU的万卡集群来了》，通信产业网：《万卡集群：从"打群架"到"群体突破"还有多远？》，半导体产业纵横：《摩尔线程CEO张建中：万卡集群是AI主战场上的标配》，AI云原生智能算力架构：《智能算力中心万卡GPU集群架构深度分析 2024》，钛媒体国际智库：《砸钱建设万卡集群，中国企业在追赶》

原文标题 : AI芯天下丨深度丨首个纯国产GPU的万卡集群亮相，试图群体突破