韩国FastSpeech 2-Pytorch实施 介绍 随着基于深度学习的语音合成技术的最新发展,提出了一种非自回归语音合成模型,以提高自回归模型的慢速语音合成速度。 FastSpeech2是一种非自回归语音合成模型,它从蒙特利尔强制对齐器(M. McAuliffe等,2017)中提取通过提取音素(话音)对齐而获得的时长信息,并预测每个音素的时长。为此。 基于预测的持续时间来确定音素话语对准,并且基于该持续时间来生成与音素相对应的语音。 因此,要学习FastSpeech2,需要在MFA中学习的音素发音对齐信息。 该项目是Microsoft的实现,可在。 此源代码基于ming024的代码,并通过使用提取持续时间来实现。 该项目提供以下贡献。 使它适用于kss数据集的源代码 从蒙特利尔强制对齐器(TextGrid)提取的kss数据集的文本发音持续时间信息 在kss数据集上训练的FastS
2022-12-10 23:01:40 571KB Python
1
基于PaddlePaddle实现的语音合成工具,包含GUI界面操作和Web接口,以及简单示例。 视频教程:https://www.bilibili.com/video/BV1G34y1s744
2022-06-30 16:06:07 422.7MB 语音合成 paddlepaddle fastspeech2 tacotron2
TensorflowTTS fastspeech2 mbmelgan 中文模型 .tflite文件 。安卓使用文件。
2022-05-17 18:40:30 17.17MB TensorflowTTS fastspeech2 tflite
1