侵权投诉
订阅
纠错
加入自媒体

解码特斯拉新AI芯片战略:从Dojo到AI5和AI6推理引擎

2025-08-21 16:55
vehicle公众号
关注

埃隆·马斯克于2025年8月7日宣布了一项大胆的战略转变,宣布特斯拉将精简其内部AI芯片设计工作,也就是我们之前文章《真突发,特斯拉解散Dojo超算团队和业务》提到的解散Dojo超级计算机团队,专注于支持自动驾驶汽车和机器人实时决策的推理芯片。

马斯克认为,特斯拉分割资源,同时扩展两款截然不同的AI芯片(超算训练的Dojo和推理应用的AI 5/6)设计,这毫无意义。

他认为特斯拉的AI5、AI6及后续芯片在推理方面将非常出色,至少在训练方面也相当出色。所以,特斯拉芯片将将所有精力都集中在AI 5/6芯片上。

而对于在超级计算机集群中用于训练的芯片,马斯克认为将AI5和AI6芯片结合起来可以形成“Dojo 3”系统。

马斯克表示,下一代 AI5 芯片将于 2026 年底生产,并于今年7月宣布与三星电子达成 165 亿美元的AI6 芯片采购协议,但没有提供生产时间表。

那么特斯拉为什么要这么做?接下来特斯拉AI芯片如何发展?采用什么样的技术路径?

本文将探讨特斯拉的AI芯片之旅、根据海外信息总结其下一代芯片的架构和技术,希望给大家带来一些信息。

Dojo 超级计算机和特斯拉的 AI 野心

Dojo超级计算机于2021年推出,体现了特斯拉利用其全球车队的PB级数据来训练全自动驾驶(FSD)模型的雄心壮志。Dojo基于专有的D1芯片构建,目标是实现超过百亿亿次浮点运算的计算性能,以加速神经网络训练。

在这个项目因其规模之大而备受赞誉——分析师曾根据其颠覆数据中心计算市场的潜力,将Dojo估值定为5000亿美元。

而到了2025年的今天,如我们文章《尘埃落定!Model Y就是“平价特斯拉”:成本削减大揭秘》中讲到特斯拉的财报数字,在中国电动车崛起等影响下不断遭遇“滑铁卢”。以2025 Q2为例特斯拉全球交付量暴跌14%,销售额下降12 %,至224亿美元,创下至少十年来的最大降幅。利润缩水16%,至11亿美元。

这些,就让Dojo 的发展的资源和成本问题更加凸显:先进工艺节点制造定制硅片需要大量的资本支出和较长的交货时间。对训练和推理架构的平行投资使工程资源捉襟见肘。

此外,从原型模块扩展到全尺寸吊舱架构这里面的工程落地技术难点,也不那么容易。

最后,人工智能芯片巨头英伟达的竞争脚步,也是让人难以抵抗。

所以,现在2025年中期,特斯拉内部逐渐意识到,维持两种截然不同的芯片架构——Dojo用于训练,AI 5/6用于推理——并非理想之选。

不过也有消息称Dojo 其实就是AI6的实验,换句话说AI6可能会采用Dojo实践的技术理论。

解码特斯拉 AI5芯片

特斯拉的 AI5 芯片计划于 2026 年投入生产,根据网络信息,特斯拉AI5预计可达到2000–2500 TOPS(每秒万亿次运算),使用int8精度,峰值功率达800瓦。

架构方面,AI5 具备先进的矩阵乘法引擎,支持混合精度(FP16、BFLOAT16、INT8),并采用统一缓存层次结构,优化FSD任务性能。

其实 AI5的设计于2025年7月完成,由于战略调整和出口限制,生产推迟至2026年第四季度。

由于高性能,AI5面临出口限制,需在某些市场提供性能受限版本以符合美国法规。采用双层限制系统,限制“友好国家”的购买,并在“竞争国家”实施额外限制。

那么中国市场有可能会是阉割版的 AI5了。那么特斯拉AI5采用了哪些关键技术?

异构计算核心,AI5 采用由三种集群类型组成的异构结构:

张量加速器:这些固定功能单元可处理 16 位和 8 位精度的批量矩阵乘法,支持常见的 AI 基元(卷积、GEMM、全连接层)。利用脉动阵列拓扑,每个张量加速器可实现 >1TFLOP/W 的效率。

矢量 DSP:针对不规则工作负载(激活函数、元素运算、规范化、索引)进行优化的可编程内核。它们采用 VLIW(超长指令字)架构,并支持预测执行,从而减少了分支密集型代码的流水线停顿。

标量微控制器:轻量级 RISC-V 内核,专用于控制平面任务:任务调度、I/O 管理和电源门控协调。通过在此卸载非矩阵任务,张量加速器和 DSP 可维持峰值吞吐量。

与纯粹以矩阵为中心的设计相比,策略性地卸载控制和不规则处理可以将整体利用率提高15-20%。

推理中最持久的瓶颈之一是内存带宽。在AI5中,Tesla 采用高带宽内存集成:封装 HBM3 可最大限度地减少 DRAM 和计算单元之间的数据传输延迟。AI5集成了多层内存层次结构:

SRAM 暂存器:每个张量簇拥有总计 2 MB 的本地存储体,旨在实现亚 1ns 级访问。这些存储体缓存输入激活和权重块,从而实现短小重复的计算循环零 DRAM 流量。

统一二级缓存: eDRAM 中实现的 64 MB 高带宽缓存位于集群和全局 DRAM 接口之间。凭借 2 TB/s 的总带宽,二级缓存可作为较大模型参数和特征图的暂存区。

LPDDR5X 外部 DRAM: AI5 最高支持 24 GB,每个引脚运行速度为 8 Gbps。Tesla 的定制内存控制器会根据工作负载强度动态调整频率和时序,从而在稀疏推理或提前退出推理场景下降低速度(和功耗)。

稀疏计算优化:硬件支持动态稀疏性,以降低推理过程中的功耗。这个是不是很熟悉,当前理想汽车在英伟达Thor U上布局VLA的时候就采用此类方法。

AI推理工作负载对较低的数值精度的容忍度越来越高。特斯拉在 AI5 中采用了混合精度策略:

FP8 和 INT4/INT2 单元:对于视觉和感知模型,许多层可以以 8 位浮点 (FP8) 甚至 4 位整数执行,且精度不会降低 1% 至 2%。AI5 集成了专用的 FP8 数据路径和 INT4 乘法累加器,在量化模式下使 MAC 吞吐量翻倍。

动态范围校准:片上校准电路可监测初始批次中的激活分布,并自动调整 INT4 量化的零点和比例因子。这消除了部署流程中的手动量化步骤。

混合精度调度:基于改进的 TensorRT 和 Tesla 内部优化器构建的软件堆栈,以最佳精度调度每一层。关键的规范化或跳过连接以 16 位运行,而高度可并行化的卷积层则以 4 位运行。

将这些混合精度模式直接集成到硬件数据路径中至关重要。仅仅在软件中支持量化是不够的;芯片必须设计成能够无缝切换模式,否则系统开销会侵蚀功耗,而特斯拉AI 5的设计就考虑了这些因素。

关于特斯拉AI6

除了 AI5 之外,特斯拉还与三星代工厂签署了一项价值 165 亿美元的协议,共同研发其 AI6 芯片。这些下一代设备将进一步优化节点扩展至 3 纳米或更低,并集成增强的片上互连,以支持跨多个芯片的集群推理。特斯拉工程师预计,在实际的全自动驾驶 (FSD) 场景中,AI6 的性能将比 AI5 提升 2 到 3 倍。

具体关于AI6的技术信息很少,有的话,也就是前文说的AI6就是Dojo。所以,有观点说Dojo 不是一个失败的项目,而是一个重要的实验阶段:

D1芯片:大规模并行处理验证

D2计划:精密开关测试

AI5:统一架构的部分验证

AI6:全面实现集成

从可配置偏差到模块化的进展、更高精度中间格式的一致使用以及硬件级操作交错都体现了特斯拉多年来执行的连贯技术策略。

写在最后

特斯拉是物理人工智能的成功探索者,其在物理人工智能领域的软硬探索是相当的成功和前沿,引领了时代。不过遗憾的是特斯拉现在对自己的技术信息隐藏的很深,所以很难找到特斯拉最新的相关技术信息,本文的技术信息源头不确定,所以需要斟酌看,懂行的可以留言讨论交流。

       原文标题 : 解码特斯拉新AI芯片战略:从Dojo到AI5和AI6推理引擎

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    电子工程 猎头职位 更多
    扫码关注公众号
    OFweek电子工程网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号