消费税 再现:样式标记:端到端语音合成中的无监督样式建模,控制和传输( ) Python和工具包版本 Python: '3.5.2' numpy: '1.13.1' tensorflow: '1.4' 样本和预训练模型 在可以找到样本,进行了两种实验: 参考音频条件: BZ_440K.wav是在Blizzard2013上训练的模型的推理结果,为440K步长(batch_size = 16),调节的参考音频是从其测试集中选取的。 LJ_448K.wav是在LJ_Speech上训练的模型的另一个推论结果,为448K步长(batch_size = 16),调节的参考音频也从其测试集中选取。 消费税的组合: normal.wav和slow.wav是在LJ_Speech上训练的模型的两个推断结果,两者之间的区别是通过选择不同的样式标记进行样式嵌入。 high.w
1
VAE Tacotron-2: 非官方实现 仓库结构: Tacotron-2 ├── datasets ├── LJSpeech-1.1 (0) │   └── wavs ├── logs-Tacotron (2) │   ├── mel-spectrograms │   ├── plots │   ├── pretrained │   └── wavs ├── papers ├── tacotron │   ├── models │   └── utils ├── tacotron_output (3) │   ├── eval │   ├── gta │   ├── logs-eval │   │   ├── plots │   │   └── wavs │   └── natural └── training_data (1)    ├── audio    └── mels
1
基于改造的tacotron算法训练中文语音合成系统,内含数据集连接以及环境搭建教程
2022-05-31 09:12:06 11.47MB 算法 文档资料
定位相关的Tacotron 的PyTorch实现。 音频样本可以在找到。 可以在找到Colab演示。 图1: Tacotron(具有动态卷积注意)。 图2:示例梅尔谱图和注意图。 快速开始 确保您已安装Python 3.6和PyTorch 1.7或更高版本。 然后安装此软件包(以及): pip install tacotron univoc 用法示例 import torch import soundfile as sf from univoc import Vocoder from tacotron import load_cmudict , text_to_id , Tacotron # download pretrained weights for the vocoder (and optionally move to GPU) vocoder = Vocoder .
2022-05-18 18:11:43 1021KB text-to-speech pytorch tts speech-synthesis
1
热释电 Tacotron的PyTorch实现,以及利用Wavenet实现PyTorch实现。 特征 在和之间轻松切换 使用json进行详细的模型结构配置 对于Tacotron: 对于Tacotron2: 分行 可以通过合并以下不同分支中的功能来创建新配置。 硕士:基本的TacotronTacotron2实施 dynamic_r :动态减少因子(r)随训练时间表而变化 gst :全局样式令牌(GST)支持 多扬声器:具有扬声器嵌入功能的多扬声器支持 设置 准备DATASET目录 准备train.csv.txt和val.csv.txt文件 将中的training_files和validation_files分别更改为上述两个文件 对files_to_list进行必要的修改,以在检索“ mel_file_path”和“ text” 安装PyTorch 安装python要求或构建do
2022-05-06 22:20:18 31KB pytorch gst tacotron gst-tacotron
1
内部实施韵律转移电子可控整流器 作者=“通王”版本=“ 0.1” 该项目旨在实现韵律转移Tacotron,这是一种具有多GPU和多cpus的文本到语音的深度神经网络。 请阅读这些文章以获取更多详细信息。 要求 numpy = 1.14.2 Scipy = 1.0.1 Matplotlib = 2.0.2 TensorFlow = 1.6.0(gpu版本) 资料准备 在开始阶段,我们使用LJ语音数据集训练了模型。 ( ) 由于LJ语音数据集是公开可用的,因此最近在TTS任务中被广泛用作基准数据集。 它有24小时质量合格的样品。 请下载LJSppech数据集的文件“ meta.csv”并将其保存在“ data / all”,并将所有带有后缀“ .wav”的音频文件保存在“ data / all / wavs”中 要生成spectrogrom文件,请运行以下命令,$ python
2022-03-26 21:55:31 6.84MB Python
1
Tacotron的TensorFlow实现:一个完全端到端的文本到语音合成模型
2021-09-26 09:58:59 1.22MB Python开发-机器学习
1
PyTorch实现了Tacotron语音合成模型
2021-08-06 11:29:50 11.47MB Python开发-机器学习
1
文本到语音合成系统通常由多个阶段组成,例如文本分析前端、声学模型和音频合成模块。构建这些组件通常需要广泛的领域专业知识,并且可能包含脆弱的设计选择。在本文中,我们提出了Tacotron,一个端到端生成的文本到语音模型,直接从字符合成语音。在给定对的情况下,可以通过随机初始化完全从头开始训练模型。我们提出了几个关键技术,使sequence-to-sequence框架能够很好地执行这项具有挑战性的任务。Tacotron在美式英语上获得了3.82分的主观5级平均意见分数,在自然度方面优于生产参数系统。此外,由于Tacotron在帧级别生成语音,因此它比样本级别的自回归方法快得多。
2021-06-29 09:02:52 504KB 人工智能 语音合成
TensorFlow中Tacotron语音合成预先训练好的模型,目前只有英文,中文的话需要自己训练
2021-06-06 16:25:10 74.54MB tacotron-201 tacotron 训练模型
1