MASR中文语音识别
MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目。
原理
MASR使用的是门控卷积神经网络(Gated Convolutional Network),网络结构在Facebook在2016年提出的Wav2letter。但是使用的激活函数不是ReLU HardTanh ,而不是GLU (门控线性单元)。因此根据我的实验,使用GLU的收敛速度比HardTanh要快。如果您想要研究卷积网络用于语音识别的效果,这个项目可以作为一个参考。
以下用字错误率CER来假定模型的表现,CER =编辑距离/句子长度,越低越好
大致可以理解为1-CER就是识别准确率。
模型使用AISHELL-1数据集训练,共150小时的录音,覆盖了4000多个汉字。工业界使用的语音识别系统通常使用至少10倍于本项目的录音数据来训练,同时使用特定场景的语料来训练语言模型,所以,不要期待本项目可以
1