侵权投诉
订阅
纠错
加入自媒体

令人激动的语音UI背后

2018-11-23 11:52
喔家archiself
关注

例如,如果扬声器有1% 的 THD,那么失真组件将比信号水平低40分贝。 如果回波消除器有30 dB 的 ERLE,那么 THD 为1% 是可以接受的。 现在考虑一下10% 的 THD。 在这种情况下,失真组件是低于信号水平20分贝,这将会淹没 AEC。 3% 的 THD 将产生30分贝以下的失真,这仍然会影响 AEC。

重要的是要测量整个系统,包括扬声器和麦克风。 仅仅测量扬声器的声学输出是不够的,因为用于许多语音UI产品的外壳可以直接从扬声器传到麦克风上。 考虑下一页图7所示的图。 这个图表显示了用外部参考麦克风测量扬声器的 THD。 每一行代表一个不同的播放级别。 对于每一个回放级别,记录测量的 SPL 和在整个音频频谱的多个频率的 THD。 图上的圆形气泡表明,测量的 THD 只出现在 THD 高于3% 的水平。 扬声器的行为是线性的,只有在很大的程度时,才会在较大的扭曲。

图7: 利用外置麦克风测量扬声器失真情况。 扬声器是线性的,只有在高SPL时才会扭曲。

这种测量方法现在正在重复使用机载语音接收麦克风,它位于一个典型的带有语音UI的"智能扬声器"的外壳顶部。 在这种情况下,如图8所示,在500至800赫兹的范围内,与500至800赫兹的麦克风结合在一起,这是不可接受的; 必须重新设计,以增加刚度和更好的隔音效果。

图8: 用产品本身的麦克风测量同一个扬声器的畸变,声音会在500至800赫兹之间的失真。

Beamforming 成形

多麦克风阵列常用于语音UI系统的原因是,多个麦克风可以使阵列变得方向化ーー专注于来自特定方向的声音。 这个过程被称为成形过程。 它有助于隔离用户的声音,同时拒绝来自其他方向的声音,提高了 SNR。

例如,如果用户在麦克风阵列的一边,而另一边是空调,空调器的声音首先到达用户对面的麦克风,然后到达用户最近的麦克风。 算法使用这些时差来消除空调声音,同时保留用户的声音。

阵列中的麦克风越多,有效的波束形成效果就越好。一个有两个麦克风的阵列取消声音的能力有限,但是一个有多个麦克风的阵列可以抵消来自更多方向的声音。麦克风越少,性能就会随着视角的变化而变化——用户的声音和语音UI产品之间的角度变化而变化。

可以通过动态调整其性能优化 SNR 以形成波束算法。 可以收紧波束宽度,以便更好地关注用户的声音,更有效地拒绝来自其他方向的声音,但语音UI系统将需要评估和调整并确保波束集中在用户身上。 这种努力增加了对系统的需求,因此大多数波束维持一个相当宽的光束。 例如,一个典型的七麦克风阵列的波束宽度相对于DOA而言大约为60度。

图9显示了波束形成消除背景噪音的能力。 上面显示了一个麦克风的频谱。 底部的数字是一个7麦克风的输出。 水平条纹是与语音信号相关的和声,背景的橙色/红色是嘈杂的噪音。 理想的结果将是被黑暗区域所包围的条纹。 在前置波束的测量中,语音被保留下来,背景噪声减少了6到7分贝。这在语音识别方面提供了明显的改进。

图9:  beamformer的实现来减少背景噪音, 暗段对应于较低的信号水平。

Noise Reduction减噪

虽然麦克风阵列系统使用方向拾取模式来过滤掉不想要的声音(比如噪音) ,但是有些不想要的声音还可以通过一种算法来减弱或消除,这种算法可以识别它们与所需信号分离的特性,然后去除不需要的声音。 一个减噪算法可以运行在一个单一的麦克风或一个阵列,可以帮助唤醒词识别和提高语音UI性能。 因此,减噪可以用于语音UI信号处理链的多个阶段。

声音命令是暂时的事件,而不是稳定的状态。 任何存在的或重复的声音,都可以从麦克风阵列发出的信号中被探测到并消除。 例如汽车的道路噪音,以及家庭中的洗碗机和暖通空调系统的噪音。 高于或低于人类声音频谱的声音也可以被过滤。

减噪算法已经被广泛使用了很多年,但是大多数都是针对手机应用而不是语音UI优化的。 它们倾向于强调对人类理解最重要的频谱,而不是电子频谱中最关键的声音分离和理解语音指令的系统。 大多数用于手机的降噪算法实际上降低了语音UI的性能。 简单地说,人类听到的东西和语音UI系统不同。

一个衡量降噪算法工作效果的方法是看看它在回波消除器的输出中提供了多少额外的dB信号。 图10显示了 DSP 在频域降噪算法的性能,减少了多达12dB 的残余回波。

图10: 减噪算法对 ERL 的影响。 曲线越高,衰减越大,效果越好。

声音质量的主观提高立即得到了认可,但是它能改善语音识别算法的性能吗? 这需要额外的测量来量化。 图11重现了图2中的那些曲线, 与原始内容相比,噪声减小使曲线向左移动了2分贝。 实验结果表明,该算法提高了语音识别的整体性能。

图11: 减噪算法对 ERL 的影响。 曲线越高,衰减越大,效果越好

这就是对语音UI系统基本原理的理解。 进一步,可以研究不同的麦克风阵列配置和不同的麦克风选择的影响。 在检查了这些效果之后,工程师和产品设计团队可以为产品获得更可靠的性能。

(本文编译自 dspconcepts的白皮书FUNDAMENTALS OF VOICE UI)

了解了这些语音UI背后的技术之后,来看看我们的产品吧。

购买地址:小度商城/京东

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    电子工程 猎头职位 更多
    扫码关注公众号
    OFweek电子工程网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号