真自主!龙芯3A6000深入揭秘:最强大的不是跑分 而是它们
2023年11月28日,北京国家会议中心,主题为“到中流击水”的龙芯产品发布暨用户大会盛大上演。
在4000多位合作伙伴、权威媒体、专家学者、主管部门领导的见证下,新一代通用处理器龙芯3A6000、打印机主控芯片龙芯2P0500重磅发布,众多围绕龙芯3A6000的整机产品登场亮相,龙芯处理器核IP、龙芯自主指令系统架构授权计划公布。
多年后如果回望半导体国产化之路,这无疑是一个关键的时刻。
极具革命色彩的开幕式
“龙芯之母”黄令仪院士今年4月离开了我们,大屏幕上打出的她的豪言壮语令人动容
一、龙芯3A6000:硬件性能飞跃、终于基本完成
龙芯中科董事长胡伟武发表主题演讲《将自主进行到底》,而大会主题“到中流击水”,代表龙芯走到了一个关键的时刻,正在经历第二次转型,从政策性市场为主转向开放性市场为主。
龙芯3A6000处理器由龙芯中科基于自主的LoongArch龙架构指令集,完全自主设计,有着优异的性能表现,堪称我国自主桌面处理器设计的又一个里程碑。
龙芯3A6000龙芯第四代微架构LA64的首款产品,采用自主成熟工艺制造,4个物理核心,支持同时多线程技术(SMT2),因此有8个逻辑核心,主频为2.5GHz。
内存还是双通道DDR4-3200,而在安全方面集成可信模块,支持安全启动方案和SM2、SM3、SM4国密算法。
龙芯微架构已经演进了四代,第一代GS464曾用于龙芯3A1000、龙芯3B1500,第二代GS464E曾用于龙芯3A2000、龙芯3A3000,第三代GS464V/LA464曾用于龙芯3A4000、龙芯3A5000。
可以看到,每代微架构都对应两代产品,整体采用架构、工艺交替升级的策略,十分类似Intel当年的Tick-Tock策略。
第四代微架构LA664全面提升了各项指标,尤其是首次将4发射提升到6发射,同时在ROB、定点/向量物理寄存器、发射队列、功能部件、载入/存储队列等各项指标上,都实现了50%到100%的提升,幅度相当之大。
这一代架构上,龙芯终于突破了同时多线程技术,追上了Intel、AMD,而且从官方数据还是实测看效率也是相当高的。
性能方面大家见过不少数据了。根据中国电子技术标准化研究院赛西实验室的测试结果,龙芯3A6000 SPEC CPU 2006、SPEC CPU 2017、Stream、Unixbench各项测试的成绩都非常突出,无论单核性能还是多核性能,无论整数性能还是浮点性能,都实现了大幅度的跨越,甚至远远超过Intel、AMD几代产品的提升。
综合相关测试结果,龙芯3A6000处理器总体性能与Intel 2020年上市的第10代酷睿i3-10100四核处理器基本相当。
要知道,现在很多用户还是八九代酷睿的配置。
胡伟武强调,经过多年的“补课”,龙芯3A6000终于基本完成了这一任务,与当今主流处理器的差距已经基本全部补齐。
要知道,2002年的龙芯一号,和当时主流的奔腾4差距有20多倍。
2021年的龙芯3A5000已经将这一差距缩小到不到1倍,相当于第三代酷睿i3四核心,而仅仅两年后,我们就几乎完全追了上来!
龙芯3A6000还只是全新微架构的第一站,未来一两年我们还将看到面向服务器的龙芯3C6000、龙芯3D6000、龙芯3E6000,分别支持16核心32线程、32核心64线程、64核心128线程,大大缩小和世界领先产品的差距,无论单核性能还是多核性能。
针对移动终端,下一步将是龙芯2K3000,微架构有所不同采用LA364,当然也是自主的LoongArch龙架构指令集,最多8核心8线程。
龙芯3C6000目前已经完成设计,单芯片放入16个核心,内存支持四通道DDR4-3200,扩展连接支持64条PCIe 4.0,实现成倍乃至数量级的提升。
虽然和世界最先进的十二通道DDR5、128条PCIe 5.0还有一代的差距,但也并非不可逾越的鸿沟。
再通过龙链技术(Loongson Coherent Link),将两颗、四颗龙芯3C6000整合在一起,就可以得到龙芯3D6000、龙芯3E6000。
这是一项支撑Chiplet晶粒设计的关键技术,可以对标Intel CXL、NVIDIA NVLink、AMD Infinity Fabric等先进互连技术,相比于传统PCIe总线可以大大提高效率、降低延迟。
同时,龙链技术支持高速缓存一致性协议传输,可以保证CPU与GPU、CPU与GPGPU、GPGPU与GPGPU之间高速、稳定互相连接,完全扩展开来。
最关键的是,这一切都基于龙芯全自研的物理接口,无论标准性、性能和效率,还是扩展性、升级性都可以自主掌握。
针对笔记本、云终端的新一代龙芯2K3000,目前已经完成前端设计,后续还有不少工作要做,包括内核、后端、外围等等。
它最多可以做到8核心,单核性能可媲美上代桌面级的龙芯3A6000,集成自研密码模块,支持PCIe 4.0、SATA 3、USB 3、HDMI等丰富的扩展和输入输出。
很关键的一点,它会集成新一代自研的LG200 GPGPU核心,不但能用来做图形渲染,还能做到计算加速、AI加速,是一个统一高效的新架构。
作为龙芯自研的第二代图形核心,LG200已经突破了GPGPU的关键技术,图形渲染支持OpenGL 4.0,通用计算支持OpenCL 3.0,AI加速支持INT8整数张量加速。
它还支持多节点互连,结合龙链技术,未来会有同样架构的专用独立GPGPU芯片!
在路线图上,服务器级的龙芯3D7000、龙芯3E7000,桌面级的龙芯3B6000、龙心3B7000也都安排上了,它们都会是LA664微架构的升级版本。
二、龙芯3A6000:软件生态成型 第三大体系屹立
有了硬件,更需要系统软件生态跟上,目前龙架构已经初具规模。
在国内,众多操作系统、基础应用软件都已经有了龙架构版本,满足基本的办公、娱乐需求已经毫无障碍。
在国外,龙架构得到了几乎所有开源社区、开源软件的快速支持,包括Linux系统内核、GCC/LLVM两大支柱性编译器、Rust/Golang/Pascal等传统与新兴编程语言、Nodejs/.net等主流应用开发框架等等,基于这些开源支持甚至已经可以打造出一套完整的龙芯开源系统。
现在,龙架构也有了自己的开源生态编号258,真正与x86、Arm、RISC-V处于等同的地位,可以说是得到了“官方认证”。
更可喜的是,一些国外基础软件也开始关注龙架构并予以支持,这是非常不容易的。
面对规模最为庞大的x86应用生态,龙芯并没有一味等待应用适配自己,也采取了二进制转译执行的策略,通过将x86指令翻译为龙架构指令、将Windows接口翻译为Linux接口函数,使之可以直接运行。
当然,这么做代价是很大的,会明显影响执行效率和性能(官方称最高可达80%),但至少能跑起来,能有的用。
目前,龙芯已经可以运行大量的x86/Windows应用,在办公、娱乐方面可以保证流畅的体验,甚至可以在龙芯服务器上执行EDA芯片设计,从而用龙芯设计龙芯。
面向未来,龙芯希望用一两年的时间,让绝大多数x86/Windows应用都可以跑在龙芯上,可以满足商用需求。
下一代龙芯处理器也会进一步完善二进制翻译,比如支持x87 80位浮点指令。
当然,龙芯自己也设计了大量第一方软件,满足特定需求,尤其是龙芯浏览器,可以最大程度上满足我国信息系统基于IE浏览器环境的兼容适配问题。
当然,这并非长久之计,更合理和长远的做法还是让网银等“老顽固”跟上时代,2023年了还抱着ActiveX不放实在说不过去。
经过20多年的不断摸索和努力,龙芯在硬件、软甲上已经基本完成了“补课”的过程,性能达到市场主流水平,软件生态基本建成,形成了独立于x86、Arm之外的第三体系。
虽然这个体系还是比较薄弱的,各方面差距都很大,但是从0到1的阶段性跨越已经完成,最艰难的步骤已经基本完成,接下来就是一点一点继续完善。
三、龙芯开放授权:从CPU核到指令集 永久免费
从硬IP到软IP,龙芯CPU的所有主要IP,都是自主研发的,可以牢牢掌握在自己手中。
但这并不意味着,龙芯的IP只为自己所用,正在开始走向开放,首先是CPU核的开放授权,然后还会开放龙架构指令集。
首批开放授权的龙芯CPU IP核有三种,分别是面向MCU微控制器的LA132、面向嵌入式的LA264、面向嵌入式和终端的LA364,它们的性能可分别对标Cortex-M4、Cortex-A55、Cortex-A75,后两者也是前两年智能手机移动平台的主流。
至于面向桌面和服务器领域的比较新的LA464、LA664,暂时不会开放。
以上都是基于LoongArch龙架构指令集的IP核,注意命名方式:LA代表LoongArch龙架构,第一位数字代表流水线发射数,后两位数字代表32/64位架构。
LA132是单发射顺序流水线设计,也是唯一的32位指令集。
对比Cortex-M4,它的流水线更长一些,可选支持浮点运算与指令、数据缓存,性能略微领先。
LA264是双发射10级乱序流水线,可选支持128位SIMD,可配置单/双/四核心,每个核心都有自己的一级数据和指令缓存,多核心共享二级缓存,可以直接交付多核簇,加快开发。
28nm工艺下,它的单个核心典型面积只有区区1.1平方毫米,就这还包含32KB一级数据缓存、32KB一级指令缓存,而典型评论可达1.3GHz。
LA364可以看作是LA264的增强版,三发射11级乱序流水线,标配128位SIMD。
28nm工艺下典型面积仅为3.86平方毫米(包括64KB一级指令缓存、64KB一级数据缓存),典型频率可达1.5GHz,性能在同类产品中属于一流水平。
以上这些CPU IP核,还都会持续迭代优化,包括提升流水线调度与执行效率、针对特定领域的应用提供定制加速、与自主工艺的深入磨合(你懂的)。
龙架构指令集现在应有2000多条指令,正考虑开放授权,正在起草相应的技术规范协议。
只要签署同意这个规范协议,就可以永久免费使用龙架构指令,而且可以自行增加符合规范的指令,既扩展性能、能力,也保证兼容性。
在发布会现场,首批10家企业与龙芯中科签订了CPU核IP授权协议,包括:
苏州雄立科技有限公司、大唐可再生能源试验研究院有限公司、得一微电子股份有限公司、山东领能电子科技有限公司、三峡智控科技有限公司、国家超级计算无锡中心、北京得瑞领新科技有限公司、北京科技大学工业互联网研究院、西安微电子技术研究所、北方自动控制技术研究所。
其中,苏州雄立科技集成龙芯CPU IP的网络交换芯片XL63系列已经研制成功,并批量交付市场,相关系统解决方案接近20款。
XL63系列是雄立科技自主研发的低功耗、高集成度、高安全的三层千兆网络交换芯片,集成多个龙架构CPU IP核心,可提供充足的运算能力。
它支持28Gbps交换带宽;集成最多24端口千兆PHY,并支持QSGM II和SGM II模式,具有二层、三层交换功能,支持NAT/NAPT,支持SYNC-E和IEEE1588V2,可满足企业和工业以太网接入业务需求。
四、龙芯整机:日益壮大的“朋友圈”
大会现场还举行了基于龙芯3A6000处理器的整机产品发布仪式,合作伙伴达到了50多家。
其中,可以看到一些我们耳熟能详的品牌和产品,比如同方计算机、联想开天、攀升、海尔雷神、方正数码、上海华硕。
也有一些你可能不太熟悉、但同样是行业大牌:航天七〇六、超越科技、升腾资讯、国光信息、北方自控、视睿、宝德网安、百信、黄河信产、大众电子、西计、北联国芯、航天龙梦、卓怡恒通、云涌科技、上海六联、智微智能、高能计算机、腾凌科技、百代存储、天安星控、派若乐、龙迈科技、众达、盛博科技、昆山嘉提、江苏嘉擎、集和诚、迅为电子、驭芯科技、深中微、航普电子、华龙讯达、道莅智远、吉斯凯达、配天技术、智流形机器人、松科智能、电科网安、高鸿信安、天融信、铵泰克、宽域、木链科技、全讯汇聚、长焜科技。
他们不但带来了台式机、笔记本,还有各种各样的服务器、工作站、特种计算机、工控计算机、工控器、网络安全设备、主板、存储产品、网关/管控/组态一体机、防火墙、密码机、机器人控制器、等等。
正是他们的众星捧月,才让龙芯还有了大展拳脚的空间。
一定程度上可以说,正是这一份长长的名单,才真正体现了龙芯的强大之处。
其中,华硕的到来让人意外有惊喜,全球第一大主板厂商带来了第一款龙芯主板:XC-LS3A6M。
该主板集成龙芯3A6000处理器、龙芯7A2000芯片组,DrMOS聚合式供电,提供两条DDR4内存插槽、一条PCIe x16(物理带宽x8)/一条PCIe x8、一条PCIe x4扩展插槽、四个SATA接口、两个M.2接口、双千兆以太网、VGA/HDMI输出接口、前后多个USB接口。
它还贴心提供了多重硬件防护、物理网络开关、DEBUG指示灯等等,还有可以确保持久耐用的五重保护、多项严苛测试。
作为最会玩的主板品牌,华硕还对龙芯3A6000进行了各种超频,BIOS里自带的狂暴模式可以将频率超到2637.5MHz(核心电压1.25V),超频幅度5.5%,可以带来2.2%的浮点性能提升、3.3%的整数性能提升。
华硕甚至尝试了液氮超频,-196.5℃低温下达到了3GHz,没有出现Cold Bug,可以稳定运行甚至进行压力测试。
而且,这只是目前BIOS的限制,并不是龙芯的限制。
五、龙芯2P0500:打印机也要自主
在国产化办公场景中,打印机、扫描仪、复印机等一直是个老大难问题,硬件上无法自主可控,软件上也和国产协同格格不入。
龙芯2P0500是一款适用于单/多功能打印机的主控SoC芯片,是打印/扫描整机中的核心控制部件。
它主要用于打印数据接收、解析和处理,打印引擎控制,扫描时序控制,扫描数据,图像处理,马达控制等工作,单芯片即可满足打印、扫描、复印等多种典型应用需求。
它采用异构大小核结构,包括一个龙芯LA364核心、两个龙芯LA132核心,三个核心共享512KB二级缓存,同时集成DDR3内存、GMAC、OTG等多种功能模块。
龙芯中科基于龙芯2P0500推出了打印机、扫描仪、复印机等多种解决方案,并与国内多个主流打印机整机厂家合作,完成打印、扫描、复印等多种应用适配。
大会现场,12家打印机厂商与龙芯中科签订了协议,将共建国产打印机新生态。
它们包括:长城信息股份有限公司、中船汉光科技股份有限公司、上海汉图科技有限公司、西安电子科技大学、恒科科技产业有限公司、宁波华高信息科技有限公司、云南南天电子信息产业股份有限公司、北京辰光融信技术有限公司、北京高德品创科技有限公司、天津光电通信技术有限公司、浙江沧田智能信息科技有限公司、大连中盈科技股份有限公司。
六、龙芯方案展示:玩原神、聊微信都不是事儿
在大会展区,近60家龙芯合作伙伴展出数百款基于龙芯CPU的解决方案,涵盖信息化办公、工业控制、智能制造、智能家居、数字五金等多个场景。
在游戏体验区,搭载龙芯3A6000处理器的电脑支持畅玩《云·原神》、《古墓丽影》等大型3D游戏。
在工作体验区,不但可以使用QQ、微信、钉钉等常用办公软件,中望CAD、云桌面、WPS、数字孪生开发引擎软件等行业应用也可以流畅地运行在龙芯电脑上。
还有五金电子区、自主工业自动化展区、教育体验区、国产自主打印机体验区等等特色展区,都展现着龙芯生态的稳健发展。
原文标题 : 真自主!龙芯3A6000深入揭秘:最强大的不是跑分 而是它们
图片新闻
技术文库
最新活动更多
-
即日-12.26立即报名>>> 【在线会议】村田用于AR/VR设计开发解决方案
-
1月8日火热报名中>> Allegro助力汽车电气化和底盘解决方案优化在线研讨会
-
1月9日立即预约>>> 【直播】ADI电能计量方案:新一代直流表、EV充电器和S级电能表
-
即日-1.14火热报名中>> OFweek2025中国智造CIO在线峰会
-
即日-1.20限时下载>>> 爱德克(IDEC)设备及工业现场安全解决方案
-
即日-1.24立即参与>>> 【限时免费】安森美:Treo 平台带来出色的精密模拟
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论