消费税 再现:样式标记:端到端语音合成中的无监督样式建模,控制和传输( ) Python和工具包版本 Python: '3.5.2' numpy: '1.13.1' tensorflow: '1.4' 样本和预训练模型 在可以找到样本,进行了两种实验: 参考音频条件: BZ_440K.wav是在Blizzard2013上训练的模型的推理结果,为440K步长(batch_size = 16),调节的参考音频是从其测试集中选取的。 LJ_448K.wav是在LJ_Speech上训练的模型的另一个推论结果,为448K步长(batch_size = 16),调节的参考音频也从其测试集中选取。 消费税的组合: normal.wav和slow.wav是在LJ_Speech上训练的模型的两个推断结果,两者之间的区别是通过选择不同的样式标记进行样式嵌入。 high.w
1
VAE Tacotron-2: 非官方实现 仓库结构: Tacotron-2 ├── datasets ├── LJSpeech-1.1 (0) │   └── wavs ├── logs-Tacotron (2) │   ├── mel-spectrograms │   ├── plots │   ├── pretrained │   └── wavs ├── papers ├── tacotron │   ├── models │   └── utils ├── tacotron_output (3) │   ├── eval │   ├── gta │   ├── logs-eval │   │   ├── plots │   │   └── wavs │   └── natural └── training_data (1)    ├── audio    └── mels
1
热释电 Tacotron的PyTorch实现,以及利用Wavenet实现PyTorch实现。 特征 在和之间轻松切换 使用json进行详细的模型结构配置 对于Tacotron: 对于Tacotron2: 分行 可以通过合并以下不同分支中的功能来创建新配置。 硕士:基本的Tacotron和Tacotron2实施 dynamic_r :动态减少因子(r)随训练时间表而变化 gst :全局样式令牌(GST)支持 多扬声器:具有扬声器嵌入功能的多扬声器支持 设置 准备DATASET目录 准备train.csv.txt和val.csv.txt文件 将中的training_files和validation_files分别更改为上述两个文件 对files_to_list进行必要的修改,以在检索“ mel_file_path”和“ text” 安装PyTorch 安装python要求或构建do
2022-05-06 22:20:18 31KB pytorch gst tacotron gst-tacotron
1