【IT168 资讯】从文本(文本到语音,TTS)生成非常自然的探测语音已经成为谷歌数十年的研究目标。在过去的几年中,TTS研究取得了很大的进展,一个完整的TTS系统的许多分类别部分都有了很大的改进。结合Tacotron和WaveNet等过去的工作思路,增加了更多改进,最终实现了新系统Tacotron 2,它采用的方法不使用复杂的语言和声学特性作为输入,相反,只使用语音示例和相应的文本记录进行训练的神经网络从文本生成类似人类的语音。
这个新系统的完整描述可以在论文“通过调节WaveNet对Mel谱图预测的自然TTS合成”(https://arxiv.org/abs/1712.05884)中找到。简而言之,它的工作原理是这样的:使用针对TTS优化的sequence-to-sequence模型来映射序列字母到编码音频的一系列功能。这些功能是一个80维的音频声谱图,每12.5毫秒计算一次帧,不仅可以捕捉单词的发音,还可以捕捉人类语音的各种微妙之处,包括音量、速度和语调。最后,使用一个wavenet式架构,将这些特征被转换成24 kHz波形。
从以上Tacotron 2的模型架构的详细来看,图像的下半部分描述了将字母序列映射到声谱图的sequence-to-sequence模型。
你可以听一些Tacotron 2音频样本,演示非常先进的TTS系统的结果。在一个评估中,谷歌要求听众对生成的语音的自然度进行评分,获得了与专业录音相媲美的评分。
虽然样本听起来不错,但仍然有一些棘手的问题需要解决。例如,系统在复杂的单词(例如“decorum”和“merlot”)的发音上有困难,在极端的情况下甚至会随机产生一些奇怪的噪音。另外,系统还不能实时生成音频。而且,也不能控制生成语音,比如引导它听起来高兴或悲伤。这些都是一个有趣的研究问题。