Recurrent neural networks (RNNs) are a powerful model for sequential data. End-to-end training methods such as Connectionist Temporal Classification make it possible to train RNNs for sequence labelling problems where the input-output alignment is unknown. The combination of these methods with the Long Short-term Memory RNN architecture has proved particularly fruitful, delivering state-of-the-art results in cursive handwriting recognition. However RNN performance in speech recognition has so far been disappointing, with better results returned by deep feedforward networks. This paper investigates deep recurrent neural networks, which combine the multiple levels of representation that have proved so effective in deep networks with the flexible use of long range context that empowers RNNs. When trained end-to-end with suitable regularisation, we find that deep Long Short-term Memory RNNs achieve a test set error of 17.7% on the TIMIT phoneme recognition benchmark, which to our knowledge is the best recorded score.
2021-05-19 09:53:14 413KB 学术论文
1
循环神经网络在语音识别中的应用 LSTM 双向RNN 双向lstm
2021-05-19 09:43:54 436KB 语音识别
1
音频深度学习(DLA) 每周的讲座和研讨会资料位于./week*文件夹中,有关资料和说明,请参阅README.md。 任何技术问题,想法,课程资料中的错误,贡献想法-添加问题 该课程的当前版本于2020年秋季在的进行 教学大纲 数字信号处理简介 讲座:信号,傅立叶变换,频谱图,MFCC等 研讨会:PyTorch简介,DevOps,深度学习研发 自动语音识别I 讲座:指标,注意力,LAS,CTC,BeamSearch 研讨会:Docker,W&B,音频增强 自动语音识别II 演讲:LM融合,RNN传感器,进度表采样,BPE 研讨会:Jasper,QurtzNet,混合精度培训,DDP / DP 关键字(KWS)和语音活动检测(VAD) 演讲:(DNN,CNN,RNN + Attention)基于KWS,SVDF,正交正则化和其他技巧 研讨会:加速神经网络:张量分解,量化,修剪
1
Speech Recognition(语音识别)-附件资源
2021-04-29 20:21:48 106B
1
中文语音识别 1.环境 巨蟒:3.5 Tensorflow:1.5.0 2.训练数据下载 清华大学中文语料库(thchs30) 3.训练 配置conf目录下的conf.ini文件中的设定 在python train.py运行python train.py开始训练 在终端运行python test.py测试 也可以使用PyCharm打开 4.测试效果
1
TensorFlowASR :high_voltage: Tensorflow 2中的几乎最先进的自动语音识别 TensorFlowASR实现了一些自动语音识别架构,例如DeepSpeech2,Jasper,RNN Transducer,ContextNet,Conformer等。这些模型可以转换为TFLite以减少用于部署的内存和计算量 :grinning_face_with_smiling_eyes: 什么是新的? ( --timestamp日)支持的初始令牌级别时间戳,请参见带有标志--timestamp (2020年12月17日)支持的ContextNet (2020/12/12)添加了对使用遮罩的支持 (2020年11月14日)支持渐变累积以进行更大批量的训练
1
关键字识别(KWS)是智能设备上终端和服务机器人的人机交互的主要组成部分,其目的是最大程度地提高检测精度,同时又要减小占用空间。 在本文中,基于DenseNet提取局部特征图的强大功能,我们为KWS提出了一种新的网络体系结构(DenseNet-BiLSTM)。 在我们的DenseNetBiLSTM中,DenseNet主要用于获取局部特征,而BiLSTM用于获取时间序列特征。 通常,DenseNet用于计算机视觉任务,它可能会破坏语音音频的上下文信息。 为了使DenseNet适合KWS,我们提出了一个变体DenseNet,称为DenseNet-Speech,它在过渡层的时间维度上删除了池以保留语音时间序列信息。 此外,我们的DenseNet-Speech使用密度较小的块和过滤器来使模型保持较小,从而减少了移动设备的时间消耗。 实验结果表明,DenseNet-Speech的特征图可以很好地维护时间序列信息。 就Google Speech Commands数据集的准确性而言,我们的方法优于最新方法。 对于具有223K可训练参数的20条命令识别任务,DenseNet-BiLSTM能够达到96.6%的精度。
2021-04-13 17:31:45 821KB keyword spotting speech recognition
1
演讲 文字转语音(TTS)和自动语音识别(ASR)。 链接到Doxygen生成的文档: : 安装 在可以找到从源代码安装的安装说明。 用法 有关如何启动或配置它的信息: 如果要构建新的语言模型,请阅读 更多示例: 要查看其他程序如何调用speechRecognition和Espeak并通过yarp对其进行配置,您可以查看代码的这一部分。 贡献 发布问题 阅读 叉与拉请求 按照,在master分支上创建功能分支( git checkout -b my-new-feature ) 提交您的更改 推送到分支( git push origin my-new-feature ) 创建一个新的拉取请求 地位 相似及相关项目
2021-04-03 22:05:21 73.11MB text-to-speech automatic-speech-recognition C++
1
Speech Recognition Using Deep Neural Networks: A Systematic Review ALI BOU NASSIF
2021-03-31 15:22:09 13.72MB Speech Recognition Deep NeuralNetworks
Deep_Learning_for_Distant_Speech_Recognition Mirco Ravanelli
2021-03-19 15:15:36 5.29MB DeepLearning Distant Speech Recognition