美国限制高端GPU出口，中国将如何应对？

2022-09-05 11:17

来了，新一轮的出口禁令又来了。美国当地时间 8 月 31 日，GPU 巨头英伟达在一份监管文件中披露，美国政府已推出一项新的出口许可管制，将影响英伟达向中国出口两款高性能 GPU 产品。

高性能 GPU 是什么？

谈及 GPU，数码爱好者都不陌生。GPU 中文全称为图形处理器，也叫显示核心、视觉处理器、显示芯片，一般用于个人电脑、游戏机等电子设备。在中文语境中，很多人喜欢用“显卡”一词来代替 GPU。市场中常见的 GPU 有英伟达 GTX 3090、英伟达 GTX 3080Ti、AMD 6900 XT 等。

然而，这次涉及的 GPU 并非上述型号，而是消费电子市场中并不常见的英伟达 A100、H100 两款芯片。

▲出口许可管制文件

事实上，GPU 分为很多种，对于玩游戏、做设计的普通用户来说，个人电脑需要配备一个 GPU，然后将显示器的接口插到 GPU 板的接口上，就能让游戏拥有更高画质，让 PS、PR 等软件运行更加流畅。这些主要用于个人用户的 GPU，也是大众最为熟知的产品形式。

不过，在 GPU 领域，还有一类产品叫计算卡，用于大型的计算工作，比如深度学习、地球天气模拟等等。这些工作涉及大量图形计算运输，GTX 3090 等显卡难以满足要求。因此，英伟达先后推出了 A100 和 H100 系列计算卡。

其中， A100 由 540 亿个晶体管组成，针对稀疏矩阵运算的加速功能，对于 AI 推理和训练来说特别有用。此外，采用英伟达 NVLink 互连技术可以让多个 A100 GPU 连起来用于更大规模的 AI 推理工作。简而言之，这是一款针对 AI 领域专门优化过的 GPU，特别适合机器学习工作站、超级计算机等一系列产品。

▲H100 计算卡

A100 性能强悍，可在 H100 面前就有点小巫见大巫。H100 专门针对面向高性能计算（HPC）和数据中心打造，拥有 800 亿晶体管，采用目前最为先进的台积电 4nm 制程工艺。英伟达表示，H100 GPU 在 FP16、FP32 和 FP64 计算方面比其上一代 A100 快三倍，在 8 位浮点数学方面快六倍。

价格上，英伟达 H100 于今年 8 月登陆日本供应商 GDEP 的网站上，其售价为 4313000 日元（不含消费税配送费，约合人民币 21．6 万元）。

哪些行业受到影响？

售价几十万的计算卡，自然不会影响普通消费者。在国内市场，A100 与 H100 的消费群体主要是企业用户与政府机构。在英伟达官网上可以发现，蔚来、上海市磁共振实验室、腾讯 PCG、阿里云、火山引擎等等。

以蔚来汽车为例，通过 A100 构建综合全面的数据中心基础设施，并在此基础上开发 AI 驱动的软件定义汽车。凭借 A100 高性能计算，蔚来可以在复杂的深度学习模型上不断迭代，在闭环环境下构建自动驾驶算法。

通俗地说，蔚来采集车队每年产生海量数据，这些数据传输到数据中心，在采集、整理、标记之后，通过 A100 高性能计算卡进行深度神经网络计算，从而对已有的自动驾驶算法进行优化。

至于腾讯 PCG，主要使用 A100 进行用户推荐。日常生活中，我们使用腾讯看点、腾讯新闻、腾讯视频等产品，系统会自动推荐内容，而这套推荐系统叫无量推荐系统。

腾讯无量推荐系统支持日活跃用户达数亿级别，日均调用服务达千亿级别，在这背后，也离不开 A100。在传统推荐系统架构，无量推荐系统使用大量 CPU 资源，通过分布式架构实现模型训练与部署。而通过使用 A100 GPU 训练和推理，单机多卡的 GPU 算力可以达到数十台 CPU 机器的算力。

▲A100

说到推荐算法，肯定离不开字节跳动，毕竟今日头条与抖音第一次让世界认识到个性化推荐的魅力。字节跳动旗下火山引擎有一项火山拍照识别功能，为用户提供以手机拍照作为输入的搜索功能。

该功能包含 10 万＋事物识别，涉及大规模细粒度图像识别，实现难度非常大。为了获得更高的推理速度，火山引擎选用了 100 GPU 作为计算平台，成功将百万级别图片训练的每次迭代训练周期从 5 天缩短至 3 天左右，大幅度提高了火山引擎线上服务速度。

从智能汽车、算法推荐到医学实验室，英伟达 A100 计算卡凭借其强大快速的计算能力为国内众多行业赋能。在计算速度、效率与能耗领域，确实有不可替代的优势。至于更加强大的 H100 计算卡，因为尚未在国内发售，所以暂时不会对国内企业造成多大影响。

国内企业如何应对？

A100 非常强、H100 无敌强，可这毕竟是人家的产品，出口许可管制生效之后，国内企业很难及时获得产品。那么，在此背景下国产企业又该如何应对呢？

首先来看蔚来、腾讯、字节跳动等下游企业，A100 计算卡最大的优势在于计算速度快、效率高、能耗低。

GPU 行业人士表示，互联网企业在计算数据中心整体成本支出时，高端产品一次性购买成本、机架占位／人工服务费（运维）、电费三者所占比重大约为 3：3：4。如果英伟达 A100、H100 被禁用，那么只能采用 12nm 的 V100 产品，考虑到电费、机架费用带来的费用，整体成本支出将超过 3 倍。

成本支出提高意味着企业需要承担更大的财务压力，不过这也说明 A100、H100 并非不可替代，通过尚未禁售的中低端计算卡组合，同样可以实现目前的效果。

接下来再看 GPU 厂商，目前英伟达主要竞争对手为 AMD，同样也是一家美国公司。据报道，AMD 旗下高端计算卡同样面临出口许可管制，因此使用 AMD 产品替代英伟达产品并不现实。

国外 GPU 企业靠不住，那么只有从国内企业中寻找。近几年，国内大量芯片初创公司都瞄准了 GPU 领域，他们与老牌企业龙芯、海光一起，构成了 GPU 领域国产替代的主力军。

今年 7 月，龙芯中科发布 7A2000 桥片，集成了龙芯自研统一渲染架构的 GPU 模块，这款产品支持 OpenGL2．1，搭配 32 位 DDR4 显存接口，最大支持 16GB 显存容量。据推测，这款产品性能相当于 AMD 十多年前的核显。

十年前的核显显然满足不了人们的需求，今年上半年，另一家芯片公司摩尔线程发布 MTT S60 多功能智能显卡。这款产品采用 12nm 制程，包含 2048 个 MUSA 核心，单精度算力最高可达 6TFlops，配置 8GB 显存。据介绍，性能堪比英伟达 GTX1070。只可惜，这款产品依然是消费级 GPU，并不能替代 A100、H100 这类企业级 GPU。

在高端 GPU 领域，国产企业同样在进步。海光的 DCU Z100 加速卡，专门针对深度计算开发。去年，百度飞桨深度学习框架与海光人工智能加速卡DCU 系列进行了安装部署测试、基本功能测试和稳定性兼容性测试。联合测试结果显示百度飞桨深度学习框架在海光 DCU 系列以及海光 3000、5000、7000 系列 CPU 环境上均能顺利安装。

性能上，海光 Z100 对标 AMD MI100 系列，同时兼容 AMD 的 ROCM 生态，虽然不如英伟达生态丰富，但是可以实现国产替代。

此外，上个月 9 号，国产初创企业壁仞科技发布 BR100 计算卡。据介绍，这款产品是国内算力最大的通用 GPU 芯片，采用成熟的 7nm 工艺，并结合了 Chiplet 技术。在发布会上，壁仞科技表示，BR100 拥有全球最高算力，峰值算力达到了市场在售旗舰产品的三倍以上，16 位浮点算力达到 1000T 以上、8 位定点算力达到 2000T 以上，单芯片峰值算力达到PFLOPS级别。