中兴押宝语音识别:语音识别能否成为主流交互方式?
语音识别,一个离我们生活很近又很远的技术。近,是因为很多地方都可以看到语音识别的身影;而远,则是我们虽然知道有这项功能,但基于其使用方式和体验我们并没有经常使用这项技术。对于这种不算新兴的交互方式,未来能否能为主流?
首款全语音操控手机“星星二号”
重拾对语音识别技术的关注还要来源于一条新闻,报道中说:即将过去的一年,对于中兴终端而言是痛并快乐着。海外市场风生水起,全美市场占有量排名第四,并在预付费市场跻身至第二名。与其相反,国内市场则继续萎靡不振,市场占有量跌出前五,中兴终端陷入内外失衡发展的尴尬。在这个手机终端硬件技术更新迅速的年代,指纹识别,双双摄像头等纷纷成为厂家的主打卖点,而中兴却创新乏力,因此中兴押宝语音技术赌未来。也发布了新战略下的首款全语音操控手机“星星二号”。据中兴通讯介绍,“星星二号”整机手机专利数有1000多件,遍及外观设计、底层核心、软件应用等各方面,其中在语音技术方面就有158件独创专利。中兴能否靠语音识别技术扭转颓势?能否让语音识别成为主流?
什么是语音识别技术?
语音识别技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。通俗的来讲,语音识别技术就是能使计算机“听懂“人类的语言,然后根据其义来执行相应的命令,从而实现为人类服务。
语音识别如何实现?
语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。
听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。
对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。
图片新闻
技术文库
最新活动更多
-
即日-12.26立即报名>>> 【在线会议】村田用于AR/VR设计开发解决方案
-
1月8日火热报名中>> Allegro助力汽车电气化和底盘解决方案优化在线研讨会
-
1月9日立即预约>>> 【直播】ADI电能计量方案:新一代直流表、EV充电器和S级电能表
-
即日-1.14火热报名中>> OFweek2025中国智造CIO在线峰会
-
即日-1.20限时下载>>> 爱德克(IDEC)设备及工业现场安全解决方案
-
即日-1.24立即参与>>> 【限时免费】安森美:Treo 平台带来出色的精密模拟
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论