汽车芯片现状概述：主控芯片成行业竞争制高点

2021-10-05 10:12

自动驾驶芯片的主要参与以第三方玩家为主,包括了国外的 Mobileye、英伟达、高通,以及国内的华为、地平线、黑芝麻等,同时国内的零跑和国外的特斯拉两家车企也在自研自动驾驶芯片。自动驾驶芯片按照不同的供应方式可以分为软硬件一体式 (算法+芯片绑定) 方案和软硬件分离(算法、芯片分离)的开放式方案。当前 Mobileye 采用的主要是算法 + 芯片绑定的一体式解决方案,这种方案短期有利于提升市占率,受到算法能力较弱的OEM 欢迎,Mobileye 在 19年全球 ADAS 芯片占有率约为 70%。但是封闭模式会导致客户开发的灵活度下降,部分有一定算法开发能力的头部OEM 会选择更加开放的解决方案来满足差异化的需求。英伟达、高通、地平线等企业采取了相对开放的商业模式,既可根据客户的需求提供芯片 +算法的整体方案,也可允许客户自己写算法。Mobileye下一代 EyeQ5 芯片也将采用开放的商业模式,据悉 EyeQ5 芯片将提供两个不同的版本,一个封闭版(己率先与麦格纳合作面市),一个开放版(会在宝马iX新车上率先搭载),可以支持第三方进行编程操作。

图7 主流自动驾驶芯片供应商产品

随着汽车E/E 架构从分布式向集中式方向进行发展,中央集中式 E/E 架构是未来最终的发展方向,这时中央计算平台作为最高决策层能够实现对所有功能的控制,现阶段相互独立的座舱芯片和自动驾驶芯片有望合二为一,这将大大简化汽车线束的设计复杂度,并降低成本。

车载SOC计算芯片典型架构

如下图是车载人工智能芯片的典型架构。按照承担的不同计算类型和任务进行分类,计算模块分为两类:CPU 和 NPU。通常来说,CPU做通用的逻辑计算,NPU 适合面向环境感知的 AI计算。

图8 车载人工智能SOC芯片架构

主要计算模块包括:

(1) CPU

除进行与 Al 处理相关的计算,车载系统仍有一定的计算需求以保证实现各类系统应用,这一部分的算力由 CPU 子系统提供,CPU 子系统所支持的计算需求包括:传感器融合、前后处理、属性重建、里程计定位匹配、车辆控制、传统算法冗余计算、调度及计算任务、感知信息输出等

为满足上述智能驾驶场景的计算需求,CPU 子系统通常采用基于 ARM Cortex-A的集群式设计,Cortex-A 系列属于低功耗内核,采取 ARMV8/ ARMV9 指令集,在提升性能的同时又能实现低功耗特性,满足高能效计算场景需求。相对 ARM 上一代处理器,采用了增强计算性能:增强的NEON 技术,可加速多媒体和信号处理算法,如视频编码/ 解码,2D/3D 图形,音频和语音处理,图像处理。双精度浮点SIMD,显著提升了对更加广泛算法的支持效率。在提升性能的同时,仍能保持低能耗的特性,CPU 集群中不同核可划分不同电压域,分组进行电源门控,在满足不同算力场景需求的同时达到低功耗特性。集群设计具备良好的灵活性、可扩展性、安全性、高能效性,能够充分适应 ADAS/ 座舱 / 智能人机交互等复杂场景的计算需求。

(2) NPU

智能网联汽车领域包含高级辅助驾驶、自动驾驶、人机交互、信息娱乐等场景需求,计算的算力需求高,并行度高,需要性能强劲、能效比更高的车载计算芯片作为算力基础设施,完成视觉、语音以及 NLP等计算处理与自学习、自主进化。将深度学习应用于上述典型场景设计专用的车载计算芯片,结合工程技术实现落地,引领产业快速发展。

将先进算法和先进处理器架构设计结合在一起,最终实现功耗、性能 (包含速度和精度)能效比等方面的最优解。NPU 是面向人工智能计算场景的专用处理器,利用深度学习技术的快速演进,通过算法从数据中学习,结合在芯片体系架构上进行创新,结合自动驾驶重直场景的计算特点,专用于执行人工智能并行计算,属于典型的异构多指令多数据的系统,针对存储器架构设计进行了特别优化,能使数据自由传递,进行多种计算,让不同部件同时运转起来,提高 Al运算的效率。NPU 在不牺牲精度前提下提供充足算力保障,具有高性能、低功耗、低成本等特点。

此外,这类芯片需体现一定的场景通用性,处理器内部针对 MAC 单元等计算模块设计了组合、选通等逻辑结构,使其自身灵活可配,可与应用开发工具链实现紧密耦合;支持 MxNet、 Caffe、TensorfowPyTorch 等多种训练框架所得模型的计算,支持传统卷积计算、循环卷积计算、全连接计算等多种深度学习算法的计算,支持不同参数规模的模型计算,同时可通过编译器配置为不同精度的浮点、定点计算,支持异构计算,可与 CPU 协同一起完成异构模型的计算,提升整体性能。NPU 自身的设计特点及其与工具链的紧密耦合决定了其灵活性高、通用性强的特征,可适应不同场景的计算需求。

随着自动驾驶等创新应用基于海量数据分析发展而来,自动驾驶所需要的环境感知、物体识别等应用要求极快的计算响应,通常利用深度神经网络算法。在保证性能快效率高的同时,功耗不能过高,不能对自动驾驶汽车的续航里程造成较大影响,对计算芯片的效率提出更高要求,计算芯片体系架构不断发展,由通用计算向专用计算延伸。当前主流的自动驾驶计算芯片在处理深度学习 A 算法方面主要有可分为 GPU、 ASIC、FPGA、DSP 等几类,选择最佳解决方案通常与多种因素有关,例如应用场景、芯片规格(包括硬件接口、功耗等)、设计约束、软件工具链以及上市时间节奏等。

智能汽车时代,Al 计算芯片就是数字发动机,提供智能汽车最重要的硬件基石则是算力。当前算力不足已经成为智能汽车发展的核心瓶颈,算力的持续提升是汽车智能化进步的标志,每增加一级自动驾等级,算力需求十倍上升,自动驾驶每往上走一级。所需要的芯片算力就要翻一个数量等级。

图9 海量数据处理需求驱动自动驾驶AI芯片算力剧增

未来多核 CPU、GPU、DSP 以及 NPU 等在市场、需求驱动下通过集成、组合,向SOC 方向发展。对软硬件进行模块化设计,采用差异化芯片方案,通过异构通用平台,总线以及各种外设控制器等,打通行业上下游,采用安全稳定、可扩展、可定制的系统,解耦软硬件不同生命周期和开发流程,通过标准化实现规模化的自动驾驶。

E/E 构架变革四大趋势:计算集中化、软硬件解耜、平台标准化以及功能定制化,将高性能的硬件预埋作为投资,通过软件更新服务为盈利点,这同时也对车载 Al 计算芯片的提出需求。

<上一页 1 2