百度大脑升级至5.0,发布远场语音交互芯片“鸿鹄”
百度AI开发者大会中,百度CTO王海峰博士开场就带来了一段机械臂倒盖碗茶的现场演示。
这个机械臂既会茶艺绝活儿,还能说会道——它主要融合了机器人视觉、语音、自然语言处理等多种人工智能技术。此外,王海峰也宣布百度大脑升级至5.0,形成了包括基础层、感知层、认知层、平台层和AI安全五大部分的核心架构。
“百度大脑”这个名词最初是在2014年从李彦宏口中说出的,他当时对外透露说:“百度大脑大约已经相当于2~3岁孩子的智力水平。”2016年的百度世界大会上,百度首次向外界全面展示了组成“百度大脑1.0”的全貌。
如今,“百度大脑” 进入5.0阶段,成为软硬件一体的AI大生产平台,核心算法再获重大突破,首次公布端到端AI计算架构,并实现了AI计算、计算架构与应用场景的创新融合。
语音识别速度大幅提升,准确率提15%-20%
百度语音技术部高级总监高亮,在开发者大会现场说了一段Rap:Hello Everyone,中英混合说是我们的everyday work,Explore技术的depth和scope是我们的responsibility……这段中英夹杂的话被百度输入法流畅、精准、及时地识别出来。
这背后是百度大脑流式多级的截断注意力模型(SMLTA),它能让语音识别速度大幅提升,准确率提15%-20%,是首个基于流式注意力的语音识别线上服务。
基于语音、视觉技术,自动合成虚拟形象
浦发银行的数字人是怎么“炼”成的?它实际上是结合语音和视觉技术,机器自动合成的虚拟形象。
王海峰介绍,实时合成虚拟形象技术,首先需要对语音信号和视频信号进行实时识别与理解,再通过唇动生成,以及语音、面部和肢体的合成,实时合成一个虚拟形象。这波操作背后,是百度大脑多项AI技术能力的体现。
视频语义理解技术实现精准解析
王海峰展示了关于中国民间艺术的音乐纪录片《大河唱》中的片段,影片中的角色、人物关系、音乐种类、取景地、影片主题等信息,都被精准解析。这背后是基于知识图谱的视频语义理解技术。
推出知识增强的语义理解框架ERNIE
百度大脑语音、视觉、语言和知识等核心算法法再度重磅升级,发布6大技术突破。
包括业界领先的流式多级的截断注意力模型(SMLTA)和风格迁移的语音合成技术;知识增强的语义理解框架ERNIE和基于知识图谱的视频语义理解技术;业界首创的高准确、低时延的机器同传技术。
值得关注的是,在语言方面,百度大脑推出知识增强的语义理解框架——ERNIE,再次全面刷新了中文自然语言处理任务效果,超越谷歌BERT。
发布远场语音交互芯片“鸿鹄”
继去年开发者大会发布“昆仑”芯片后,今年,王海峰发布了一款新的芯片——远场语音交互芯片“鸿鹄”。鸿鹄芯片使用了HiFi4自定义指令集,双核DSP核心,平均功耗仅100mW。这款芯片是根据车规级标准打造,将为车载语音交互、智能家具等场景带来巨大的便利。
百度飞桨与华为麒麟芯片合作
今年开发者大会最大的亮点来了。王海峰与华为消费者BG软件总裁王成录博士联合宣布,百度飞桨与华为麒麟达成深度合作。
图片新闻
最新活动更多
-
即日-11.13立即报名>>> 【在线会议】多物理场仿真助跑新能源汽车
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
11月29日立即预约>> 【上海线下】设计,易如反掌—Creo 11发布巡展
-
11月30日立即试用>> 【有奖试用】爱德克IDEC-九大王牌安全产品
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论