OpenASR的
基于pytorch的end2end语音识别系统。 主要体系结构是 。
特征
最小依赖。 该系统不依赖外部软件进行特征提取或解码。 用户只需安装PyTorch深度学习框架。
良好的表现。 该系统包括高级算法,例如标签平滑,SpecAug,LST,并在ASHELL1上实现了良好的性能。 AISHELL1测试的基准CER为6.6,优于ESPNet。
模块化设计。 我们将系统分为几个模块,例如培训师,指标,进度表,模型。 扩展和添加功能很容易。
End2End 。 特征提取和标记化是在线的。 系统直接处理波形文件。 因此,该过程大大简化了。
相依性
python> = 3.6
火炬> = 1.1
pyyaml> = 5.1
tensorflow和tensorboardX进行可视化。 (如果不需要可视化结果,可以在src / utils.py中将TENSORBOARD_
1