这是用于语音转换的VQ-VAE模型的实现。 到目前为止,结果还不如DeepMind令人印象深刻(您可以找到其结果)。 我的估计是语音质量为2-3,清晰度为3-4(按5阶平均意见得分)。 欢迎捐款。
当前结果
音频样本
经过50万步训练(约2天)后的结果:
来源1: (我们消息感到鼓舞) 目标1:
资料来源2: (谁是神秘议员?) 目标2:
资料来源3: (在阿伯丁亚历克斯·弗格森(Alex Ferguson)的下,这是可以做到的。 目标3:
资料来源4: (那是一个艰辛的时刻。) 目标4:
笔记:
格式:[发言人] _ [句子]
作者没有在上指定目标演讲者。
演讲者空间
VQ-VAE学习的扬声器空间的PCA-2D(Tensorboard屏幕截图)。 请注意,性别是自然分开的,如Deep Voice 2的图4所示。 有趣的是, p280的性别未在VCTK发布的Spea
2022-02-16 13:14:43
155KB
Python
1