谷歌DeepMind推出WaveNet 大大改善计算机输出音频转换
导读: 近日,谷歌旗下人工智能公司DeepMind公布了其在计算机语音合成领域的最新研究突破——WaveNet。WaveNet是一种利用神经网络系统对原始音频波形(RawSoundWave)建模的技术,生成的音频质量优于目前所有的文本转语音(Text-to-Speech,TTS)系统...
近日,谷歌旗下人工智能公司DeepMind公布了其在计算机语音合成领域的最新研究突破——WaveNet。WaveNet是一种利用神经网络系统对原始音频波形(RawSoundWave)建模的技术,生成的音频质量优于目前所有的文本转语音(Text-to-Speech,TTS)系统,将计算机输出音频与人类自然语音差距缩小50%,号称世界最佳!
DeepMind在twitter发文称:“让人类和机器对话是人机交互领域长久以来的梦想!”
通常我们听到的计算机或手机输出的文本转语音(TTS)音频都会觉得别扭、生硬,甚至诡异。此次DeepMind推出的这款新型语音合成系统WaveNet将大大改善这种情况,让机器输出音频更自然、更像人类发声。
当然,让计算机发出声音,这并不是什么新鲜事儿。
最常用的TTS方法可能是拼接式语音合成(ConcatenativeSynthesis):先录制单一说话者的大量语音片段,建立一个大型语料库,然后简单地从中进行选择并合成完整的大段音频、词语和句子。这种“机械式”方法使得计算机输出音频经常产生语音毛刺、语调的诡异变化、甚至结巴,并且无法调整语音的强调性音节或情绪。
另外一种方法是所谓的参数化方法,利用数学模型对已知的声音进行排列、组装成词语或句子来重新创造音频。这种技术倒是不易产生声音毛刺,所以确实让机器输出的音频听起来不那么机器化。
然而,这两种技术的共同点是:简单、机械地将语音片段拼接起来,而不是从零开始创造出整个音频波形。
音频跳转
WaveNet正是一种从零开始创造整个音频波形输出的技术。
WaveNet利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络(convolutionalneuralnetworks),让其能够辨别这两方面(语言和语音)的音频模式。使用中,对WaveNet系统输入新的文本信息,也即相对应的新的语音特征,WaveNet系统会重新生成整个原始音频波形来描述这个新的文本信息。
- 雷军:红米手机在海外将搭载谷歌官方版安卓 2018-04-23
- 或将失去安卓系统使用权 中兴与谷歌磋商寻求解决方案 2018-04-19
- 苹果/谷歌/FB/亚马逊/微软:哪家科技巨头会先倒下? 2018-04-18
- 谷歌将为安卓手机加入“名正言顺”的手势操作 2018-04-16
- 人工智能还能省钱:DeepMind技术为谷歌节省电费 2016-07-20
图片新闻
- 即日-5.15 【有奖问答】 NI半导体测试应用有奖问答 立即参加>>
- 即日-6.16 【有奖问答】泰科电子传感器及医疗应用解决方案 下载白皮书>>
- 4月26日 泰克开放日与专题巡回研讨会 立即报名>>
- 5月16日 2018首尔半导体LED巡回技术研讨会-上海站 立即登记>>
- 5月16日 OFweek2018(第四届)中国工业自动化及机器人在线展会 立即报名>>
- 5月17日 2018消费电子自动化测试研讨会昆山站 参会有礼 >>
- 电子工程
- 猎头职位
- 视觉工程师广东省/深圳市
- 技术研发总监广东省/深圳市
- 高级电气工程师广东省/深圳市
- 封装工程师北京市/海淀区
- 光模块结构工程师(无锡)江苏省/无锡市
- 光模块光学工程师 (无锡)江苏省/无锡市
- 光器件物理工程师北京市/海淀区
- 销售总监(光器件)北京市/海淀区
- 电路设计工程师(金华市)浙江省/金华市
- 结构工程师(金华市)浙江省/金华市
我来说两句
请输入评论
请输入评论/评论长度6~500个字
暂无评论
暂无评论