买不到英伟达GPU，那就自己造！

7.30-8.1 全数会2025（第六届）机器人及智能工厂展
火热报名中>>

买不到英伟达GPU，那就自己造！

2023-08-03 13:49

阿明观察

关注

前言：技术就是生产力

创新对于任何一个公司

都是最强大的动力

【全球存储观察｜热点关注】据外媒消息称，埃隆·里夫·马斯克(Elon Reeve Musk)想买下英伟达所有AI芯片，但做不到。于是马斯克开启自己投资做GPU的自主可控之路。

因此，马斯克之所以愿意投资超过10亿美元来为特斯拉开发Dojo超级计算机，只是因为他无法得到足够的英伟达芯片。据马斯克本人说，“如果他们能给我们提供足够的GPU，我们可能就不需要Dojo了。但他们做不到，因为他们有太多客户。”

之后，马斯克在回应一个推特账号时做了进一步的评论：“不幸的是，他们甚至不能为我们提供所需计算量的一小部分！”

D1超算芯片是Dojo系统的基础。该芯片采用7纳米制造工艺，处理能力为1024 gigaflops，即每秒1024亿次。1500枚D1芯片可组成阵列，而将25个阵列放在一块晶圆上，便能形成训练模组 (Training Tile)，这便是Dojo超级计算机的单元核心。

2022年的特斯拉AI日上，特斯拉抛出了Dojo ExaPod，即Dojo集群。ExaPod内含120个训练模组 (Training Tile)、3000个D1芯片。其拥有13TB静态随机存取记忆体容量以及1.3TB高传输频宽记忆体容量，算力高达1.1EFLOP。

最新马斯克对外表示，“明年底之前，我们将花费远远超过10亿美元在Dojo项目上，我们有数量惊人的视频数据要进行训练。”马斯克还提到，预计将同时使用英伟达GPU和Dojo两个超算系统。

Dojo是特斯拉自研的多芯片模组化（Multi-Chip Modularized）超级计算机，于2021年的特斯拉AI日上正式亮相。最初Dojo主要服务于自动驾驶系统的数据标注以及训练，后也被应用于机器人研发，擎天柱的“大脑”中便搭载了Dojo的D1超算芯片。

特斯拉掌握着“数量惊人”的影像数据，目前全自动驾驶（FSD）测试版的总行驶里程已达到3亿英里。Dojo未来将用于处理发展自动驾驶软件所需的海量数据，有利于特斯拉摆脱对英伟达GPU的依赖。此外，马斯克还表示，特斯拉在考虑向其它汽车厂商授权其FSD硬件和软件。

为了更好的训练，降低训练成本，提升训练结果，Dojo超算未来将达到100 exaFLOPS的运算能力。

当然了，为了更好的自动驾驶训练将FSD训练结果发挥的淋漓尽致，马斯克采用自己的超算同时，也构建了基于5760块Nvidia A100 GPU的集群，然而英伟达的GPU供货远远不能满足特斯拉在FSD上的训练应用需求。基于D1芯片的Dojo超算，也是马斯克不得已而为之。

当然马斯克承诺声称要花掉10亿美元以帮助特斯拉开发自动驾驶汽车软件，时间是从现在开始到2024年底。

业内人士也有分析认为，有两个原因让马斯克动手加速做自己的超算Dojo。一个原因，在于英伟达GPU价格一直飙高不下，为了议价特斯拉需要手里有一张牌来打而已；另一个原因就是公开声称英伟达GPU供应上不能满足特斯拉的FSD大规模需求，主要像公有云厂商亚马逊云科技Amazon AWS、微软公有云Microsoft Azure、谷歌云Alphabet Google Cloud和甲骨文云Oracle Cloud都在抢购英伟达的GPU，加上行业其他企业抢购，特斯拉要保证自己的应用需要就越来越紧张。这里隐含的意思就是，特斯拉自己的D1芯片不如英伟达的GPU，但特斯拉将不得不用现有的D1芯片来凑齐。

当然，马斯克对英伟达GPU还是一直赞不绝口的。

事实证明，特斯拉这个新的Dojo超算中心毕竟将使用大量的Nvidia GPU。特斯拉需要处理其汽车在路上记录的大量现实世界镜头的数据，用于训练完全依赖相机的FSD算法，而不是其他汽车公司采用的相机和其他传感器的混合方式。在评论这一点时，马斯克澄清说，Dojo将使用Nvidia和特斯拉自己定制设计的D1芯片的融合架构。

当然，马斯克对于英伟达的创始人以及员工一直还是褒奖不断。此前，特斯拉使用了很多Nvidia硬件。也将继续使用。实际上，坦率地说，如果英伟达能为特斯拉提供足够的GPU，特斯拉可能就不需要Dojo。但英伟达不能。毕竟英伟达的全球客户有这么多。尽管如此，英伟达还是很友好地优先考虑了特斯拉的一些GPU订单。无论如何，特斯拉还是不差钱。

回顾一下特斯拉的GPU开发历史，我们不难发现几年前，特斯拉正式宣布了其最新的超级计算机Dojo，这样—一个用于为其汽车训练全自动驾驶（FSD）软件的大型数据中心。随着公告的发布，据透露，这位电动汽车领导者开发了自己的芯片D1，来训练FSD所需的人工智能算法。这是一件汽车行业的全球大事，因为到目前为止，特斯拉一直在使用Nvidia GPU来为这项人工智能培训提供算力支撑。

这与特斯拉认为有必要在内部设计自己的硬件和软件的做法是一样的逻辑，无论是为了降低成本和对供应商的依赖，还是当市场上没有它需要的东西时得有自己的技术储备。早在2018年，特斯拉宣布为其汽车中的车载计算机设计了自己的芯片，被称为“特斯拉”的GPU，抛弃了Nvidia为电动汽车制造商设计的系统。

很有意思的是，英伟达有大量竞争对手试图复制它在人工智能芯片设计中取得的成就，但是，却很少有人像特斯拉“真刀真枪”实干获得D1和Dojo这样的成功。

不过，特斯拉设计自己的芯片D1,让我们想起了苹果及其用于iPhone和iPad设备的A系列芯片，以及用于Mac电脑和新的iPad Pro系列的M系列芯片。特斯拉继续致力于其垂直整合，允许该公司依赖自己的GPU技术增加需求补充，减少对外部供应商的依赖，本质上来说对其FSD测试研发大有裨益。

对于Dojo超算的核心芯片D1而言，之前业内也有不少介绍，这里再简单梳理一下。

之前，业内朋友应该也看到了D1芯片有一些令人印象深刻的性能介绍，特斯拉表示，它可以在FP16/CFP8精度下输出多达362 TeraFLOPs或约22.6 TeraFLOPs的单精度FP32任务。很明显，特斯拉针对FP16数据类型进行了优化，他们甚至设法击败了目前的计算能力领导者-英伟达。英伟达的A100 GPU能够在FP16工作负载下“仅”产生312 TeraFLOPs的算力。

特斯拉为D1芯片构建了一个功能单元（FU）网络，这些功能单元相互连接，形成一个巨大的芯片。

每个FU都包含一个带有自定义ISA的64位CPU，专为转置、收集、广播和链路而设计。CPU设计本身是一个超标量实现，具有4宽标量和2宽矢量管道。每个FU都有自己的1.25MB scratchpad SRAM内存。FU本身能够执行BF16或CFP8的一个TeraFLOP，FP32计算的64千兆FLOP，并在网络中的任何方向都实现有512 GB/s的带宽。这意味着延迟降低，性能提高。

凭借D1芯片，特斯拉将拥有世界上十分超前的人工智能训练所需的超级计算机，特斯拉的25个D1芯片可以组成的一个训练模块，带宽达到36 TB/s，BF16/CFP8的峰值算力达到9 PFLOPS。在数个机柜中部署120个训练模块（包含3000个D1芯片），即可组成ExaPOD超算集群，超过100万个训练节点，BF16/CFP8的峰值算力达到1.1 ExaFLOPS。这对比目前基于英伟达设备构造的超级计算机，在同样配置成本条件下，性能提升4倍，每瓦性能提高了1.3倍，占地面积小5倍。

基于7纳米的制造工艺，D1芯片由台积电TSMC代工生产，包装了超过500亿个晶体管，其处理能力达到每秒计算362万亿次浮点运算。其裸片面积为645 mm²，小于英伟达的A100（826 mm²）和AMD Arcturus（750 mm²）。其配备了354个训练节点，支持用于AI训练的各种指令，包括FP32、BFP16、CFP8、INT32、INT16和INT8。

D1芯片应用于于特斯拉车辆收集的视频数据训练模型。

负责开发D1芯片和Dojo超算的领导人，Venkataramanan之前来自AMD，并在AMD担任了近15年的长期工程总监，目前在在特斯拉工作7年左右时间。

在过去的几年里，人工智能（AI）被广泛采用。众所周知，特斯拉是一家从事电动汽车和自动驾驶汽车的公司，人工智能对公司工作的各个方面都具有巨大的价值。为了加快人工智能软件的工作负载，特斯拉不得不推出了用于人工智能培训的D1芯片和超算Dojo。

当然，超算Dojo是通过组合25个D1芯片组成的训练模块作为主要计算单元，整合了CPU、存储、通讯接口、网络、电源等模块，最终构建了一套性能超前的超级计算机。

目前有许多公司为人工智能工作负载构建ASIC。从无数的初创公司，一直到亚马逊、百度、英特尔和英伟达等大公司。然而，并非每个人都能正确应用充分发挥出ASIC芯片价值，也不是每个人都能完美地满足每个工作负载量。这应该就是为什么特斯拉选择为人工智能训练目的而开发自己ASIC芯片的另一个重要原因。想要发挥出GPU的真正完美性能，还是得自己掌握技术并付诸实际应用优化。

据多个媒体消息称，特斯拉将超级计算平台Dojo的生产被提上议程，Dojo将于2023年7月开始生产。特斯拉还预计其计算能力将在2024年1月左右跻身全球Top5之列。

业内预计，当Dojo超级计算机开始交付后，可能会看到特斯拉FSD(Full Self-Drive)完全自动驾驶更快的迭代和改进。

2023年，特斯拉CEO埃隆·曾在公司第一季度财报电话会议上表示，该公司的超级计算机Dojo的“潜力非常巨大”。马斯克表示，特斯拉正在为Dojo“投入大量精力”，并相信它“有可能在训练成本上有一个数量级的提高”。

全球存储观察阿明分析认为，真正的狠人，像马斯克这样是自己搞芯片，自己搞超算，自己做模型，自己做训练，自己做应用，自己实现商业化。特斯拉实现了这样的从芯到“行”的“一条龙”技术创新之路，从芯片到完全自动驾驶全流程的创新，从硬件到软件到应用，触及到电动汽车行业的每一个创新的层级，拥有这样强大的创新能力，特斯拉还是很牛。