令人激动的语音UI背后 - OFweek电子工程网

4日10日 OFweek 2025（第十四届）中国机器人产业大会
立即报名 >>>
7.30-8.1 全数会2025（第六届）机器人及智能工厂展
火热报名中>>

令人激动的语音UI背后

2018-11-23 11:52

例如，如果扬声器有1％的 THD，那么失真组件将比信号水平低40分贝。如果回波消除器有30 dB 的 ERLE，那么 THD 为1％是可以接受的。现在考虑一下10％的 THD。在这种情况下，失真组件是低于信号水平20分贝，这将会淹没 AEC。 3％的 THD 将产生30分贝以下的失真，这仍然会影响 AEC。

重要的是要测量整个系统，包括扬声器和麦克风。仅仅测量扬声器的声学输出是不够的，因为用于许多语音UI产品的外壳可以直接从扬声器传到麦克风上。考虑下一页图7所示的图。这个图表显示了用外部参考麦克风测量扬声器的 THD。每一行代表一个不同的播放级别。对于每一个回放级别，记录测量的 SPL 和在整个音频频谱的多个频率的 THD。图上的圆形气泡表明，测量的 THD 只出现在 THD 高于3％的水平。扬声器的行为是线性的，只有在很大的程度时，才会在较大的扭曲。

图7：利用外置麦克风测量扬声器失真情况。扬声器是线性的，只有在高SPL时才会扭曲。

这种测量方法现在正在重复使用机载语音接收麦克风，它位于一个典型的带有语音UI的＂智能扬声器＂的外壳顶部。在这种情况下，如图8所示，在500至800赫兹的范围内，与500至800赫兹的麦克风结合在一起，这是不可接受的；必须重新设计，以增加刚度和更好的隔音效果。

图8：用产品本身的麦克风测量同一个扬声器的畸变，声音会在500至800赫兹之间的失真。

Beamforming 成形

多麦克风阵列常用于语音UI系统的原因是，多个麦克风可以使阵列变得方向化ーー专注于来自特定方向的声音。这个过程被称为成形过程。它有助于隔离用户的声音，同时拒绝来自其他方向的声音，提高了 SNR。

例如，如果用户在麦克风阵列的一边，而另一边是空调，空调器的声音首先到达用户对面的麦克风，然后到达用户最近的麦克风。算法使用这些时差来消除空调声音，同时保留用户的声音。

阵列中的麦克风越多，有效的波束形成效果就越好。一个有两个麦克风的阵列取消声音的能力有限，但是一个有多个麦克风的阵列可以抵消来自更多方向的声音。麦克风越少，性能就会随着视角的变化而变化——用户的声音和语音UI产品之间的角度变化而变化。

可以通过动态调整其性能优化 SNR 以形成波束算法。可以收紧波束宽度，以便更好地关注用户的声音，更有效地拒绝来自其他方向的声音，但语音UI系统将需要评估和调整并确保波束集中在用户身上。这种努力增加了对系统的需求，因此大多数波束维持一个相当宽的光束。例如，一个典型的七麦克风阵列的波束宽度相对于DOA而言大约为60度。

图9显示了波束形成消除背景噪音的能力。上面显示了一个麦克风的频谱。底部的数字是一个7麦克风的输出。水平条纹是与语音信号相关的和声，背景的橙色／红色是嘈杂的噪音。理想的结果将是被黑暗区域所包围的条纹。在前置波束的测量中，语音被保留下来，背景噪声减少了6到7分贝。这在语音识别方面提供了明显的改进。

图9： beamformer的实现来减少背景噪音，暗段对应于较低的信号水平。

Noise Reduction减噪

虽然麦克风阵列系统使用方向拾取模式来过滤掉不想要的声音（比如噪音），但是有些不想要的声音还可以通过一种算法来减弱或消除，这种算法可以识别它们与所需信号分离的特性，然后去除不需要的声音。一个减噪算法可以运行在一个单一的麦克风或一个阵列，可以帮助唤醒词识别和提高语音UI性能。因此，减噪可以用于语音UI信号处理链的多个阶段。

声音命令是暂时的事件，而不是稳定的状态。任何存在的或重复的声音，都可以从麦克风阵列发出的信号中被探测到并消除。例如汽车的道路噪音，以及家庭中的洗碗机和暖通空调系统的噪音。高于或低于人类声音频谱的声音也可以被过滤。

减噪算法已经被广泛使用了很多年，但是大多数都是针对手机应用而不是语音UI优化的。它们倾向于强调对人类理解最重要的频谱，而不是电子频谱中最关键的声音分离和理解语音指令的系统。大多数用于手机的降噪算法实际上降低了语音UI的性能。简单地说，人类听到的东西和语音UI系统不同。

一个衡量降噪算法工作效果的方法是看看它在回波消除器的输出中提供了多少额外的dB信号。图10显示了 DSP 在频域降噪算法的性能，减少了多达12dB 的残余回波。