华侨网,有态度的华人新闻网站!

帮助中心 广告联系

華僑時報 | 華僑網

热门关键词:  央行  发顺丰  蓝狐  詩詞  习近平
热门TAG标签:

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

来源:网络整理 作者:华侨时报 发布时间:2018-01-02
摘要:在我们的印象中,机器的声音都是冰冷的电子音,虽然人类也一直致力于研究让机器“说人话”,但搞出来的成果似

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

谷歌再出黑科技

用人工智能模拟出来的声音

几乎可以和真人以假乱真

在我们的印象中,机器的声音都是冰冷的电子音,虽然人类也一直致力于研究让机器“说人话”,但搞出来的成果似乎还是跟人类真实的声音差距很大,生硬、不自然一直是通病。

在这方面,谷歌倒是一直不遗余力的在研究,所谓只要功夫深,铁杵磨成针。前段时间,他们终于宣布,让机器说人话这事儿,有进展了!!!

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

谷歌最近发布了一个利用神经网络合成语音的模型,它可能会让电脑发出的声音变得更有“人味儿”。

根据dailymail报道,谷歌最近展示了一种新的语音系统,可以让语音助手的声音听起来更加自然,更加像真人的声音。

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

(图片来自dailymail)

这个名为Tacotron 2的机器人,是通过真实的人类对话案例和文本记录训练出来的,据说这样可以让它的交流显得更加自然。

日前,这套机器人系统演示了一下如何顺利的朗读不同文本,甚至连Peter Piper的绕口令都读了!!!

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

嗯......只是被一些比较困难的文字绊住了,不过也可以理解啦,毕竟人类自己读绕口令还嘴瓢呢。

不信你试试——

Peter Piper picked a peck of pickled peppers.

Did Peter Piper pick a peck of pickled peppers?

If Peter Piper picked a peck of pickled peppers,

where's the peck of pickled peppers Peter Piper picked?

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

(图片来自Tom's Hardware)

在一篇新的博客文章中,谷歌的研究人员解释说,最新的文字转语音系统(TTS)可以把从培训中学到的内容用自己的话说出来。

与普通的TTS系统相反,Tacotron 2不使用复杂的语言和声学特性作为输入,用语音示例和相应的文本记录进行训练,使系统从文本生成更显自然的人类声音。

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

(图片来自TechCrunch)

关于Tacotron 2,谷歌这次综合了以前研发的Tacotron和WaveNet的思路,并且增加了更多的改进。

这里简单说一下Tacotron和WaveNet——

Tacotron是今年3月Google提出的一种新的端到端的语音合成系统。该系统可以接收字符输入并输出相应的原始频谱图,然后将其提供给 Griffin-Lim重建算法直接生成语音。

WaveNet则是由Deepmind在一年前提出的生成原始音频波形的深层神经网络模型,已正式商用于Google Assistant中。今年10月,Deepmind发表博客称,该模型比起一年前的原始模型效率提高1000倍,且能比目前的方案更好地模拟自然语音。

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

研发团队对Tacotron 2的表现也充满信心,很多听众都表示它的效果都可以拿来跟专业录音媲美了。

研究人员对此解释说,Tacotron 2的工作原理是使用序列-序列模型来映射序列字母到编码音频的功能,这其中还结合了发音、音量、速度和语调,所以它可以捕捉到人类发音的各种微妙之处。

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

小编倒是觉得,讲话语调的变化真的很重要。

比如wo cao这个词

wō cāo表轻蔑

wǒ cáo表疑问

wǒ vào表愤怒

wò cào表惊叹

同理可用于fuck一词。

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

最后,这些特征被转换成24 kHz的波形。

虽然Tacotron 2在听众的评分中表现还不错,但研发团队也表示——

它还并不是很完美。

责任编辑:华侨时报