安谋科技推出新一代“周易”X2 NPU:助力建设中国智能计算生态
2023年3月28日,安谋科技(中国)有限公司(以下简称“安谋科技”)推出旗下自研IP又一力作——新一代人工智能处理器“周易”X2 NPU,不仅在算力、精度、灵活性等方面进行了大幅提升,还针对车载、边缘计算等应用场景进行了专门优化,为新兴领域不断迭代的计算需求提供更为完善的解决方案。
在同日举办的媒体会上,安谋科技还正式发布“周易”NPU软件开源计划,通过开放源码,满足客户更自主、更灵活的算法移植需求,携手合作伙伴共建国内NPU产业生态。
据安谋科技执行副总裁、产品研发负责人刘澍介绍,“周易”X2 NPU 第一个瞄准的是汽车市场。“安谋科技注意到,中国有强劲的汽车发展动力,中国市场汽车销量约占全球汽车销量的1/3,同时,企业在中国的客户也得到了长足的进步和发展。与此同时,中国在过去的几年中涌现出了特别多的本土智能汽车品牌,这些新势力汽车品牌也是‘周易’X2 NPU所面向的重要的合作伙伴。”
汽车自动驾驶应用对人工智能的需求越来越多,不光是ADAS里面有更多的摄像头、更多的雷达,会产生更多需要处理的数据,同时里面也涵盖车内车外的各种监测、辅助的决策系统,需要更高帧率、更大算力、更多人机交互、更多安全性需求等。基于上述要求,新一代“周易”X2 NPU会在这些方面带来很好的支撑。
“‘周易’X系列不仅仅适用于汽车领域,还面向边缘侧服务器类型,”刘澍进一步介绍到,“从‘周易’产品的路线图可以看到,‘周易’不光是产品在向前演进,架构也在不断发展。‘周易’X1 NPU产品主要是基于的V1、V2架构,更多是用在AIoT领域,‘周易’X2 NPU是我们第一款基于V3架构的NPU,算力有大幅提升,能够支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,计算效率与计算密度也得到了显著提升。未来我们会推动针对新兴领域的高性能子系统开发,希望把“周易”推向更多大算力的领域,不断地发展。”
基于最新V3架构,“周易”X2 NPU赋能高性能AI计算
据安谋科技产品总监杨磊介绍,“周易”X2 NPU基于最新的V3架构的指令集,相比前代产品有如下的技术升级:1.支持更大的算力;2.支持更好的i-Tiling的技术方案;3.实时的任务调度;4.支持混合精度计算;5.优化的Transformer性能;6.增加了无损的权重压缩的技术;7.低功耗技术升级;8.面向手持设备的专门优化等。
“周易”X2 NPU如何支持大算力的方案?据介绍,“周易”X2 NPU通过多个NPU的核构成了一个Cluster(集群),实现算力成倍的提升。再通过多个Cluster构成了一个子系统这样的方案,来完成大算力的产品形态的交付。
当然,多核方案的难点在于,如何将这么多的核心的计算能力充分地发挥出来,这就涉及到任务的分发和管理。这也是整个系统中最核心的功能之一,即任务调度器,它可以同时调度多个Cluster的多个核心的功能。为此安谋科技专门做了一个硬件的加速单元——Task Scheduling Manager(TSM)来负责多核或者多个计算单元的实时任务调度。据悉,目前已经可以做到100纳秒一次任务调度,可以充分发挥硬件的计算效率。
另一方面,随着汽车和手机数据的分辨率越来越大,从720P到1080P,未来甚至会向更大的分辨率4K去演进。这个过程中不止是对算力的要求提升,对带宽的要求也是成倍地提升。安谋科技为此推出i-Tiling技术,把一个很大的图片拆成若干个小块,这样每一个tile就变得很小,小的好处是可以在芯片上,也就是芯片内部的memory缓存在内部,这样就不需要把这个数据从外面的设备中做读写操作,从而从根本上节省了对外部带宽的需求。借助i-Tiling技术,可以大幅降低系统的成本,提高系统的效率。
除此之外,杨磊还告诉笔者,“周易”X2 NPU面向不同的手持设备做了专门优化,比如面向手机、平板电脑、PC市场可以提供30T的算力,对标现在业界旗舰手机的NPU解决方案。也针对手机等手持设备面向拍照类的场景做了AI去噪等优化;针对PC平板的视频会议超分和插帧等专门优化;以及针对手持设备在功耗上的优化,7nm(制程)可以实现10TOPS/W的高能效比。
安谋科技NPU研发高级总监孙锦鸿告诉笔者,“周易”X2 NPU包含了“周易”Compass软件平台,把软件的各个部分都包含在里面,还包含了IP。“周易”X2 NPU采用“周易”v3架构,可以从10TOPS到80TOPS,扩展成多核单Cluster,通过多Cluster可以扩展到320TOPS算力。
据悉,“周易”v3架构对比“周易”v1、v2架构更强调并行性和可扩展性。在整个v3架构的指令集中,安谋科技定义了超过1000个专门针对不同场景的指令,这些指令也是基于VLIW结构,由长指令和短指令构成,并且可以支持64bit和128bit的指令包,做到统一的指令集组合。
“在我们的运算单元里,需要很多AI固定功能的加速,我们提供了很高效的4K MAC矩阵,适用于CNN、RNN、Transformer等结构。其次我们提供了很多可重置的结构单元,以适配很多新算子,因为很多AI功能背后的模型或算子更新日新月异,这些可重置的结构单元就给我们的NPU提供了很多的可扩展性和适应性,”孙锦鸿表示,“灵活单元层面,我们做了很多针对AI标量、矢量的指令,这些指令都可以通过OpenCL实现很好的编程体验。每个基础单元可以做到1024bit/cycle的数据处理,它的数据带宽可以根据1024bit有效拓展。虽然我们团队的量化能力非常强,但也希望支持一些原生的浮点单元,让用户在不需要做太多量化的工作基础上实现较好的体验。我们也支持了矩阵浮点运算,每一个时钟可以支持128MACs的操作,是基于FP16的运算。”
携手合作伙伴建设中国智能计算生态
IP业务的成功离不开生态的构建,随着“周易” X2 NPU的推出,安谋科技也正式发布了“周易”NPU软件开源计划:率先对外开放NPU中间表示层规范、模型解析器、模型优化器、驱动等,并向相关合作伙伴提供“周易” Compass软件平台,包括软件模拟器、调试器、C编译器等在内的多种软件工具。在满足合作伙伴更自主、更灵活的算法移植需求的同时,进一步提升了软件开发效率,避免重复造轮。
此外,安谋科技还表示,欢迎有自研NPU想法的合作伙伴也来兼容“周易”NPU的架构。值得一提的是,生态伙伴计划并不只是面向芯片客户,而是面向上下游所有可能的参与者。除了NPU以外,整个自研的产品矩阵都是计划中的一部分,包括“周易”NPU、“山海”SPU、“星辰”CPU、“玲珑”ISP、VPU等,都能提供给技术方案给这个计划中的合作伙伴。
据悉,安谋科技生态伙伴计划从2022年7月就已经开始实行了,截止到目前已经有40家合作伙伴参与到了生态伙伴计划当中,其中包括汽车领域内的芯片提供商、tier1、tier2和算法厂商,也有AIoT、高性能计算等领域的合作伙伴。基于该计划,安谋科技通过开展产品技术交流、技术合作拓展、生态营销推广等方式,携手合作伙伴,共同推动中国智能计算生态的创新和繁荣。
图片新闻
技术文库
最新活动更多
-
即日-12.26立即报名>>> 【在线会议】村田用于AR/VR设计开发解决方案
-
1月8日火热报名中>> Allegro助力汽车电气化和底盘解决方案优化在线研讨会
-
1月9日立即预约>>> 【直播】ADI电能计量方案:新一代直流表、EV充电器和S级电能表
-
即日-1.14火热报名中>> OFweek2025中国智造CIO在线峰会
-
即日-1.20限时下载>>> 爱德克(IDEC)设备及工业现场安全解决方案
-
即日-1.24立即参与>>> 【限时免费】安森美:Treo 平台带来出色的精密模拟
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论