韩国FastSpeech 2-Pytorch实施
介绍
随着基于深度学习的语音合成技术的最新发展,提出了一种非自回归语音合成模型,以提高自回归模型的慢速语音合成速度。 FastSpeech2是一种非自回归语音合成模型,它从蒙特利尔强制对齐器(M. McAuliffe等,2017)中提取通过提取音素(话音)对齐而获得的时长信息,并预测每个音素的时长。为此。 基于预测的持续时间来确定音素话语对准,并且基于该持续时间来生成与音素相对应的语音。 因此,要学习FastSpeech2,需要在MFA中学习的音素发音对齐信息。
该项目是Microsoft的实现,可在。 此源代码基于ming024的代码,并通过使用提取持续时间来实现。
该项目提供以下贡献。
使它适用于kss数据集的源代码
从蒙特利尔强制对齐器(TextGrid)提取的kss数据集的文本发音持续时间信息
在kss数据集上训练的FastS
2022-12-10 23:01:40
571KB
Python
1