从技术核心升级扩展思必驰新概念智能语音技术详解

2015-07-31 12:04

　　随着物联网与智能化时代的逐渐临近，如何实现高效且舒适的人机交互过程，让智能硬件能够发挥最大的潜能、提供最完美的用户体验，是矗立在很多在创新之路上奔跑的智能硬件开发者面前一座难以逾越的山峰。

　　而从前只是简单实现命令交互就让人称奇的时代也已经一去不返，消费者对于体验舒适度的需求和对理解准确性的要求都极大提高，昭示相对应的语音交互技术也必然要经过一个从核心技术层面的升级，而解决方案团队也因此要树立更加完美甚至理想化的目标，才能最终俘获客户的青睐与信任。

　　语音技术在目前还面临着巨大的挑战。很多声音都提到，想真正实现自由和稳定的人机交互系统不仅需要解决语音的“感知和表达”，更需要解决认知理解和抽象思维的智能。很让人振奋的是，这一过程不仅指日可待，其实目前已经有成功实现的案例。

图1：“语声纪元”发布会上，思必驰CEO高始兴讲解创新语音技术思路

　　在7月29日深圳一场智能硬件开发者与产业链沙龙上，思必驰（AISpeech）详细汇报了一个在概念和技术上明显进阶的高级语音技术，并通过成功的演示，一定程度上颠覆了现场参与者对过往接触语音识别时的一些使用体会。

图2：各智能硬件开发团队、供应链企业与众多前沿媒体齐聚一堂

　　从感官进化到逻辑大脑的思必驰语音交互技术

　　思必驰的俞凯博士把他们这个语音系统比喻为智能硬件的大脑。因为一个完善的产品不能只有耳朵和嘴巴，要实现自然交互，除了这两样感官还需要有逻辑能力、需要大脑的运作。这基本也用最简单的一段语言来概括了整个人机交互未来的发展方向。

　　而思必驰CEO高始兴提到了一个很重点的问题，就是要达到这一目的，应如何解决从听，到理解，再到思考和反馈回应这一系列复杂的过程？即所谓的认知智能该通过何种技术手段来解决？

　　所有智能语音交互系统的开发者一定会面临的技术挑战，大体有准确感知、理解意图和正确反馈等几个方面。即是说，一个有完善语音交互功能的机器人都应经过语音识别、解析、行动选择和任务处理/语音合成等几个重要的步骤，所以为了达到这几个目标，比如思必驰，就在大数据和深度学习上下足了功夫。

图3：思必驰俞凯博士详解各技术突破

图4：思必驰对智能语音技术进行了全方位的升级革新

　　在具体的技术布局上，俞凯提到了有4个方面。

　　（1）远场及抗噪技术突破：

　　抗噪非常关键。在各种公共场合甚至空旷场所都有噪声，因为回声对于硬件采声过程来说同样是妨碍正常判断的源头。亦即是说，智能硬件是很难分清各种声音具体来自哪一个人或者物体的，这时候就非常需要回声消除技术，让硬件可以在自己播放音频的同时，还能辨认外部的语音指令。

　　国际研究界通用的Aurora4测试标准中，记载错误率最低是10.0%，而思必驰的技术的做到了9.7%。思必驰仅用软件方法，通过更改算法和模型，使得错误率大大下降，达到以往采用语音降噪芯片才能达到的效果，大幅提升了识别率，并且降低了成本。

　　（2）更先进的回声消除和麦克风阵列算法组合：

　　除了纯软件的方案，还有利用麦克风阵列的方法。思必驰实现的线性方案，主要通过多个麦克风、对多个声源的解析，了解目标位置，对具体声音进行处理。

　　不过思必驰仅靠软件且单麦克风条件下，通过大数据整合以及智能算法，仍然达到了极为优秀的使用体验，识别速度与准确率均处在世界领先水平。

　　这种软硬件结合的多种解决方案，更给出了更多的选择和可能性。

　　（3）基于统计的参数化语音合成方法：

　　传统语音合成是采用拼接技术，录制大规模的语音库，切片后在合成的时候把片段拼起来，这就往往需要大量的标准语音。

　　思必驰的方案是基于统计的参数化语音合成。即使用参数化，用一些很小的模型表示复杂的数据，通过特征的提取，并生成一些算法的方式来实现。同时通过用数据驱动训练的方法，使得采声并不需要很端庄，而是普普通通的发音就可以。这种基于统计的参数化语音合成方法，可以实现模型规模的大幅压缩，语音连贯性的大幅提升，能够自由训练个性化的语音。

　　（4）多轮交互和根据上下文的语义解析：

　　在真实场景下，传统语音识别加自然语言处理的方案并不能很好地实现自由的“人机交互”，这就需要一次或者多次的纠正和反馈。通常意义上的认知，其实是一种静态认知。而机器通过大数据运算，能够使得对一句话语义上面的理解更准确，把任何一个单词变成用一个数字表示，数字之间可以进行语义计算。然而如果在交互的过程中，通过环境与用户不间断、不定序的发问与反馈，达到一种沟通，则是一种较为先进的动态认知技术。

　　通俗来说，这种动态实现了用户对机器的打断能力。机器首先要可以部分理解用户不完整的话，而且可以做回声消除，还可以在部分理解的基础上经过多轮的交互，最终实现命令的执行。看似很简单的打断过程，其实牵动了一个大系统的共同运作。

　　可以说，思必驰是在领先的传统语音识别合成技术的基础上，引入了交互认知智能，通过情境理解和多轮交互，最终成功完成了对语音认知的一种进化。

　　高始兴还谈到了一个有趣的应用，即是个性化的语音合成。现场演示了林志玲和葛优的声音，后来还会有郭德纲、鹿晗等大众比较熟悉的明星加入阵营。更有意思的是，未来用户可以把爱人、孩子的声音上传，经计算后下载到智能硬件上，实现在未来智能硬件上与自己亲人（声音）时刻对话。

　　智能硬件行业关键的时间线

　　智能语音技术应用最为广泛的智能硬件行业未来前景是怎样的呢？

1 2 下一页>