驱动中国2017年12月29日消息 据外媒WCCF Tech报道,谷歌公司近期通过人工智能技术研发的语音合成系统Tacotron 2,其发音精准度已与真人发音很难准确区分,将被用于文字转语音的应用场景。而在此之前,我们习以为常的语音转文字技术则相对容易一些。 据悉,谷歌基于第二代技术开发出了Tacotron 2语音系统。它由两个深层的神经网络组成。一个神经网络将文本转换为PDF格式的频谱图,另一个为接入频谱图载入的神经网络WaveNet。WaveNet 神经网络再读取频谱图并生成与人声高度相似的音频元素。 目前,Tacotron 2系统仅训练了英语女声,在英文文本的转换阅读中可分辨细小差异,会在句子单词中出现大写字母时特别加重语调进行阅读。Tacotron 2系统系统还具备处理文本中少量的单词错误的功能。 据谷歌表示,Tacotron 2语音系统的文本转语音技术,在发音上已经几乎与人声无法准确区分开来。谷歌公司称,这套语音系统已经不局限于实验室中,已经被试用于Google Assistant来生成仿真语音。在进一步完善后,将直接应用于Google Assistant 语音助手中。
|