用于 open_stt 数据集的 PyTorch E2E ASR
用于训练语音识别任务的语言和声学模型的最少脚本集。 训练管道包括以下阶段:
基于字符的RNN语言模型
具有 CTC 损失的 CNN-RNN 声学模型
基于字符的 RNN 语言模型和具有 RNN-T 损失的 CNN-RNN 声学模型
使用强化学习和 RNN-T 损失进行微调
结果
下表显示了。
阶段
模型
失利
更新
核证减排量
世界范围内
1
LM
行政长官
2407000
2
是
反恐委员会
216850
19.9
57.0
3
LM+AM
循环神经网络
108425
21.7
45.6
4
LM+AM
强化学习
300
19.2
43.9
要求
PyTorch >= 1.3(带有错误修复 )
预处理
基于 log mel 滤波器组的声学模型,带有 40 个大小为 25 毫秒的滤波器,
1