上传者: 43569398
|
上传时间: 2021-06-29 09:09:20
|
文件大小: 331KB
|
文件类型: PDF
本文介绍了tacotron2,一种直接从文本合成语音的神经网络结构。该系统由一个循环序列到序列特征预测网络组成,该网络将字符嵌入映射到mel尺度谱图,然后由一个改进的波网络模型作为声码器,从这些谱图合成时域波形。我们的模型实现了4.53的平均意见核心(MOS),与专业录音语音的平均意见核心(MOS)4.58相当。为了验证我们的设计选择,我们对我们系统的关键部件进行了初步研究,并评估了使用mel谱图作为波网络的条件输入而不是语言、持续时间和F0特征的影响。我们进一步表明,使用这种紧凑的声学中间表示法可以显著减小波网结构的尺寸。