在配置安装ctcdecode的时候,无法下载谷歌云上的这两个文件boost_1_67_0.tar.gz,openfst-1.6.7.tar.gz。我这里已经下载好供大家使用。
2022-02-03 14:29:45 99.28MB python pytorch 语音识别 深度学习
1
使用WaveNet进行语音转文字 仍然需要弄清楚CTCLoss的南问题 基于DeepMind论文: 语音识别实现。 此实现的目的是结构合理,可重用且易于理解。 这里的流实现: 尽管WaveNet被设计为“文本到语音”模型,但该论文提到他们也在语音识别任务中对其进行了测试。 他们没有提供有关实现的具体细节,只是表明他们通过直接在TIMIT上对原始音频进行训练的模型在测试数据集上达到了18.8 PER。 我从修改了WaveNet模型,并将的语音识别实验。 下图显示了最终的体系结构。 (图片来源: ) 先决条件 系统 Linux CPU或(NVIDIA GPU + CUDA CuDNN) Python 3.6 图书馆 PyTorch = 0.4.0 librosa = 0.5.0 熊猫> = 0.19.2 == 0.11.0 数据集 我们使用了 , 和语料库。 由上
2021-11-18 20:12:04 216KB Python
1
基于transformers 和 vgg的端到端神经网络 语音识别项目,我已经改成适配最新的aishell数据格式的了 可以看label,data中的aishell 文件直接改写路径就能得到相应的文件,训练执行看readme就可以了
2021-04-19 11:05:28 3.12MB pytorch语音识别