使用WaveNet进行语音转文字
仍然需要弄清楚CTCLoss的南问题
基于DeepMind论文: 语音识别实现。
此实现的目的是结构合理,可重用且易于理解。
这里的流实现:
尽管WaveNet被设计为“文本到语音”模型,但该论文提到他们也在语音识别任务中对其进行了测试。 他们没有提供有关实现的具体细节,只是表明他们通过直接在TIMIT上对原始音频进行训练的模型在测试数据集上达到了18.8 PER。
我从修改了WaveNet模型,并将的语音识别实验。
下图显示了最终的体系结构。
(图片来源: )
先决条件
系统
Linux
CPU或(NVIDIA GPU + CUDA CuDNN)
Python 3.6
图书馆
PyTorch = 0.4.0
librosa = 0.5.0
熊猫> = 0.19.2
== 0.11.0
数据集
我们使用了 , 和语料库。 由上
2021-11-18 20:12:04
216KB
Python
1