LAS-Pytorch
这是我的(LAS)谷歌ASR深度学习模型的pytorch实现。 我同时使用了mozilla 数据集和数据集。
借助torchaudio,在加载文件的同时即可快速完成功能转换。
结果
由于我的GPU没有足够的内存,因此这是采用相当小的体系结构进行的4个训练周期的LER(信笺错误率)和损失度量。 侦听器具有128个神经元和2层,而Speller具有256个神经元和2层。
我们可以看到模型如何从我们提供给它的数据中学习,但是它仍然需要更多的训练和适当的架构。
字母错误率
失利
如果我们尝试预测音频样本,则结果如下所示:
true_y :['A','N','D',','S','T','I','L','L',','N','O',' ','A','T','T','E','M','P','T',','B','Y','','T','H ','E','','P','O']
1