英伟达背后的“诸神之争”

2024-03-15 15:15

正见TrueView

关注

缺芯演变为全球各行各业的痛点，催促更多的国产AI芯片企业努力追赶甚至超越。

内容/岚羽

编辑/ TV

校对/莽夫

2024年刚开局，AI“王炸”频现。苹果放弃长达十年的造车计划转投生成式AI，OpenAI首个文生视频模型Sora惊艳亮相，号称比GPT-4快18倍的大模型Groq横空出世，华为发布首个通信行业大模型……

AI浪潮已经势不可挡，AI芯片作为其发展的底层基石也迎来了前所未有的机遇。据Gartner最新预测，到2024年AI芯片市场规模将较上一年增长25.6%，达671亿美元。预计到2027年，AI芯片市场规模将是2023年规模的两倍以上，达到1194亿美元。

在这样的背景下，“算力霸主”英伟达被捧上神坛，以高达80%的占有率几乎垄断了市场，赚得盆满钵满。英伟达数据中心业务的营收再创新高，带动2024年财年Q4季度总营收狂涨265%。由于这份远超预期的财报数据，英伟达一夜涨出2770亿美金市值，相当于：一夜涨出阿里巴巴+百度+京东。

英伟达的“狂飙”也引来了众多挑战者。亚马逊、谷歌、微软、华为、百度等巨头积极推动自研芯片，寒武纪、摩尔线程、燧原科技等新锐力量崛起。据外媒报道，英伟达在提交给美国证券交易委员会的文件中，其中包含AI芯片等多个类别里，首度将华为认定为“最大竞争对手”。

理想与狂热交织下，人们不免好奇：英伟达的“铁王座”还能坐多久？为什么华为被其列为最大竞争对手？其他国产AI芯片发展如何？

Part.1

英伟达“外患”大于“内忧”

与英伟达不断刷新预期的业绩相伴相随的是，越来越多的挑战。

正如英伟达CEO黄仁勋在一次演讲中所说：“我们并不需要假装公司处于危险之中，因为我们能感觉到公司确实一直处于危险之中。”

英伟达目前最显著的问题是产能。从去年开始，台积电在先进封装方面的产能变得紧张，而英伟达芯片依赖于台积电的CoWoS封装技术以及基于65nm硅中介层的工艺。虽然台积电已计划将CoWoS封装产能提高一倍，但需到2024年下旬产能才能纾解。

为缓解产能紧张的局面，英伟达与英特尔达成了代工合作意向，初步估算英特尔每月生产5000片晶圆，如果全部用于生产H100芯片，在理想情况下最多可以得到30万颗芯片，这也意味着英伟达高性能GPU的交货周期将有望缩短更多。

内忧好解，外患却不容忽视。去年12月，AMD发布了MI300系列芯片产品。AMD首席执行官苏姿丰称，MI300X在训练大语言模型方面与英伟达的H100芯片相当，但推理能力更为出色。目前，MI300系列产品已开始量产出货，上个季度推动AMD数据中心GPU总收入超过4亿美元。

英特尔也在发力谋求在市场中更大的话语权。新一代的Gaudi 3将采用先进的5nm制程工艺，配备最高达128GB的HBM3e内存，大幅提升AI的学习和训练性能，可对标英伟达的H200芯片。

除了上述两个直接竞争对手的“步步紧逼”，英伟达还面临多家科技大厂的挑战。微软发布了其首款定制化Maia 100 GPU和Azure Cobalt CPU100，以降低AI服务成本。亚马逊和谷歌已经使用了自研芯片，并部分产品向客户提供。OpenAI的7万亿芯片计划和孙正义的1000亿“豪赌”也在试图分一杯羹。此外，MLIR、谷歌等都在转向“以Python语言为基础的编程层”，以使AI训练更加开放，逐渐摆脱对英伟达CUDA生态的依赖，建立起自己的护城河。

与此同时，受出口管制影响，英伟达在中国市场的收入暴跌。根据英伟达最新的财报数据，中国区2023年第四季度的营收下滑到个位数比例。如何在美国政府管制、中国客户需求间保持平衡成为英伟达的一道关键课题。

在专门为中国市场特供的A800和H800也被禁售后，英伟达推出了新款H20，但该产品性价比并不高，性能缩水为H100的四分之一，阿里巴巴、腾讯、百度等中国企业明确表示今年会大砍订单量，英伟达在中国的营收恐不乐观。

Part.2

华为AI芯片的自研苦旅

英伟达在曾提交给美国证券交易委员会的文件中，把华为列为最大竞争对手。近日在接受美国科技杂志《连线》采访时，英伟达CEO黄仁勋再次表达了对华为的重视，点赞“华为尽管受到现有半导体处理技术的限制，仍然可以通过将许多芯片聚集在一起来构建非常强大的系统。”

这不仅是对华为技术实力的认可，更是对整个AI芯片行业竞争格局的一次重新评估。申万宏源的研究报告显示，从2023年上半年的数据看，华为AI服务器出货量已成为国产品牌第一，仅次于英伟达，且仍在快速增长。

华为的崛起并非是“忽如一夜春风来”。2017年，华为发布全球首款移动端AI芯片麒麟970，内置独立NPU，相比CPU获得了约50倍能效和25倍性能优势。这意味着，麒麟970芯片可以用更少的能耗更快地完成AI计算任务。

一年后，华为又发布麒麟980，凭借7nm制程工艺、双核NPU加持等特性，麒麟980打破了多项世界第一。但是，没有一蹴而就的成果。麒麟980历经了36个月的研发，才完成定制特殊基础单元构建高可靠性IP论证，再加上Soc工程化验证的时间，留给量产的周期仅半年左右。

根据这个时间表，麒麟研发团队实际上只能允许一次投片修正，否则就会影响芯片的正常流片、量产和终端适配，造成产品延期上市甚至是项目失败。经过2个大版本的迭代，5000多次的工程验证，花费了数亿美元，最终麒麟980成功量产。

麒麟980成为华为在手机端AI芯片布局的一个重要里程碑。在此基础上，华为试图覆盖云、边、端各种场景，形成从应用到系统到芯片的闭环。

2018年10月，华为在其全联接大会上首次提出全栈全场景AI解决方案，并“祭”出了两颗AI芯片：华为昇腾（Ascend）910和310。从算力上看，昇腾910表现非常出色，半精度（FP16）算力可达256TFLOPS，整数精度（INT8）算力可达612TOPS。2023年最新发布的昇腾910B是昇腾910的升级款，算力已达到英伟达A100的性能水平。

由于其卓越的性能表现，加上美国对英伟达芯片的出口禁令限制，国内企业纷纷转投昇腾系列的怀抱。据悉，2023年华为从中国主要互联网公司获得了至少5000颗昇腾910B芯片的订单，这对英伟达在AI芯片市场的主导地位构成了严峻的威胁。

算力比拼仅是一方面，生态建设方面，英伟达最宽的护城河CUDA也正遭猛烈进攻。CUDA最大的特点就是，软硬结合大幅提升了GPU的并行计算效率，具备低成本、低门槛、广生态等优势，兼容CUDA生态对于开发者与客户来说更友好。但同时，兼容也会成为限制产品发展的“天花板”，追随英伟达生态难以实现突围，自研生态才有望实现自主可控破局。

华为以自研CANN框架对标CUDA，要直面英伟达用户粘性的巨大挑战。CUDA推出至今，拥有超400万开发人员和超过3000个应用程序，建立起了庞大的用户群体与开发者社区。

虽然CANN起步较晚，离CUDA还有很大差距，但华为也在努力追赶。目前华为CANN平台已经到了7.0版本，支持50+主流大模型，同时兼容主流加速库及开发套件。此外已经支持Pytorch、Tensorflow等主流框架，PyTorch 2.1版本已同步昇腾NPU，意味着开发者可直接在PyTorch 2.1上基于昇腾进行模型开发。

伴随着“日拱一卒”的演进，华为AI芯片终于实现“从0到1”的突破，走向了巨头的谈判桌。但“从1到100”仍需企业和产业链上下游共同完善生态，剩下就交给时间。

Part.3

国产AI芯片的“繁花”时代

目前国产AI芯片主要可以分为三类：其一是华为、阿里等大型科技企业自研的AI芯片，二是海光信息等国资背景的科技公司，三是寒武纪、壁仞科技、摩尔线程、燧原科技等创业型芯片公司。

华为作为ICT运营商，积累了完整的云技术生态和渠道销售能力。在各省级行政区建立代表处、派驻城市总经理的战略打法，还一度被腾讯云和阿里云效仿。

阿里平头哥

成立于2018年的平头哥，由中天微和达摩院自研芯片业务整合而来，依托中天微多年技术积累，结合阿里基础设施事业部和达摩院的前沿算法研究，技术储备深厚。

2019年9月，含光800问世，这是平头哥第一款通用AI推理芯片。含光800采用了自研的芯片架构，通过软硬件的协同设计实现性能突破。在业界标准的ResNet-50测试中，含光800推理性能达到78563 IPS，比当时业界最好的AI芯片性能高4倍；能效比500 IPS/W，是第二名的3.3倍。

含光800已经大规模应用在阿里内部核心业务中，虽然不对外售卖，但可以通过阿里云对外输出AI算力。阿里云去年4月推出的大模型“通义千问”，就使用了含光800芯片。

海光信息

主要从事高端处理器、加速器等计算芯片产品和系统的研究、开发，是少数几家具备高端处理器研发能力的企业之一。海光信息的产品采用X86架构，分别有海光通用处理器（CPU）和海光协处理器（DCU）。

海光的“深算一号”是公司DCU系列的主要在售产品，目前广泛应用于数据中心、互联网企业，在大数据处理、人工智能、商业计算等领域，已经商业化应用数十万片。“深算一号”具备大模型运行能力，但它的水平只相当于英伟达P100的水平。2023年第三季度海光推出了“深算二号”，据透露其性能翻了一番。不过和英伟达产品相比，仍有一定差距。

燧原科技

专注于人工智能云端算力产品，提供自主创新、全栈自研、具备完全自主知识产权的通用AI训练和推理产品，可广泛用于云数据中心、超算中心、泛互联网、传统行业及智慧城市等多样化场景。

成立五年多，燧原科技已推出燧思系列芯片、云燧训练和推理加速卡以及云燧智算机的全系列算力产品线。基于燧原科技的自主创新芯片架构，采用12nm工艺制造的新一代燧思AI推理芯片计算能力与业内7nmGPU相当。

伴随着大模型和生成式AI的兴起，缺芯正从一个行业季节性的常态，演变为全球各行各业的痛点，催促更多的国产AI芯片企业努力追赶甚至超越。

市场、企业、技术、产品都在变化，新的格局正在孕育当中，国产AI芯片亟需找准战略规划的前行方向，才能避免在这副生存角逐的棋局中被碾压踢出。

原文标题 : 英伟达背后的“诸神之争”