当前位置:

OFweek电子工程网

数字信号处理

正文

谷歌DeepMind推出WaveNet 大大改善计算机输出音频转换

导读: 近日,谷歌旗下人工智能公司DeepMind公布了其在计算机语音合成领域的最新研究突破——WaveNet。WaveNet是一种利用神经网络系统对原始音频波形(RawSoundWave)建模的技术,生成的音频质量优于目前所有的文本转语音(Text-to-Speech,TTS)系统...

  OFweek电子工程网讯 近日,谷歌旗下人工智能公司DeepMind公布了其在计算机语音合成领域的最新研究突破——WaveNet。WaveNet是一种利用神经网络系统对原始音频波形(RawSoundWave)建模的技术,生成的音频质量优于目前所有的文本转语音(Text-to-Speech,TTS)系统,将计算机输出音频与人类自然语音差距缩小50%,号称世界最佳!

  DeepMind在twitter发文称:“让人类和机器对话是人机交互领域长久以来的梦想!”

  通常我们听到的计算机或手机输出的文本转语音(TTS)音频都会觉得别扭、生硬,甚至诡异。此次DeepMind推出的这款新型语音合成系统WaveNet将大大改善这种情况,让机器输出音频更自然、更像人类发声。

  当然,让计算机发出声音,这并不是什么新鲜事儿。

  最常用的TTS方法可能是拼接式语音合成(ConcatenativeSynthesis):先录制单一说话者的大量语音片段,建立一个大型语料库,然后简单地从中进行选择并合成完整的大段音频、词语和句子。这种“机械式”方法使得计算机输出音频经常产生语音毛刺、语调的诡异变化、甚至结巴,并且无法调整语音的强调性音节或情绪。

  另外一种方法是所谓的参数化方法,利用数学模型对已知的声音进行排列、组装成词语或句子来重新创造音频。这种技术倒是不易产生声音毛刺,所以确实让机器输出的音频听起来不那么机器化。

  然而,这两种技术的共同点是:简单、机械地将语音片段拼接起来,而不是从零开始创造出整个音频波形。

谷歌DeepMind推出WaveNet 大大改善计算机输出音频转换

音频跳转

  WaveNet正是一种从零开始创造整个音频波形输出的技术。

  WaveNet利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络(convolutionalneuralnetworks),让其能够辨别这两方面(语言和语音)的音频模式。使用中,对WaveNet系统输入新的文本信息,也即相对应的新的语音特征,WaveNet系统会重新生成整个原始音频波形来描述这个新的文本信息。

1  2  下一页>  
责任编辑:Zack
免责声明: 本文仅代表作者个人观点,与 OFweek电子工程网 无关。其原创性以及文中陈述文字和内容未经本站证实, 对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅 作参考,并请自行核实相关内容。

我来说两句

(共0条评论,0人参与)

请输入评论

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码: