MASR 中文语音识别 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目,本项目是基于 进行开发的。本项目已暂停维护,推荐使用识别效果更好的企业级模型 。 模型原理 MASR使用的是门控卷积神经网络(Gated Convolutional Network),网络结构类似于Facebook在2016年提出的Wav2letter,只使用卷积神经网络(CNN)实现的语音识别。但是使用的激活函数不是ReLU或者是HardTanh,而是GLU(门控线性单元)。因此称作门控卷积网络。根据实验结显示,使用GLU的收敛速度比HardTanh要快。 以下用字错误率CER来衡量模型的表现,CER = 编辑距离 / 句子长度,越低越好,大致可以理解为 1 - CER 就是识别准确率。 安装环境 执行requirements.txt安装依赖环境,在安装过程中出现Pyaudio安装错误,可以先执行su
2021-11-04 12:01:42 240KB cnn pytorch asr deepspeech
1
wenet数据集.开源版 本,超 过20000小时(2万小时以上),可以用来训练自动语音识别以及声纹识别。
2021-10-27 21:06:39 216B asr wenet
1
语音合成相关模型,使用地址:https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech/tree/master/tools/generate_audio 和 https://github.com/yeyupiaoling/PPasr/tree/master/tools/generate_audio
2021-10-25 16:09:17 392.32MB tts asr 语音合成 语音识别
1
myG2P 用于语音识别(ASR)和语音合成(TTS)的缅甸语(缅甸)语言音素到音素(myG2P)转换字典。 မြန်မာလိုဖတ်မယ်ဆိုရင်-> 林森 知识共享署名-非商业性共享相同的4.0国际版(CC BY-NC-SA 4.0)许可证 联系人电子邮件:wasedakuma [at] gmail.com 介绍 我们开发了这个myG2P(缅甸字形到音位)字典的(多语言语音翻译应用程序)缅甸语言项目 ,日本(2014 - 2015年期间)。 我们主要使用MLC(缅甸语言委员会)词典中的单词。 如果使用myG2P词典,请引用和/或。 如果您正在谈论缅甸语的句子级音素到音素转换,请引用《 。 音素到音素的映射 缅甸语言委员会(MLC)语音词典可以用作语音映射的基础。 我们发现有必要用外来语音扩展字典。 在建议的映射表中,有33个辅音的23个语音符号(某些辅音具有相同的发音,例如表1
2021-10-22 18:13:29 6.25MB text-to-speech dictionary myanmar asr
1
PPASR中文语音识别(最终级)模型(thchs30数据集训练的),源码地址:https://github.com/yeyupiaoling/PPASR
2021-10-14 12:08:32 614.57MB paddlepaddle 语音识别 asr deepspeech2
1
PPASR中文语音识别(最终级)模型(free_st_chinese_mandarin_corpus数据集训练的),源码地址:https://github.com/yeyupiaoling/PPASR
2021-10-14 12:08:23 574.47MB paddlepaddle 语音识别 asr DeepSpeech2
1
PPASR中文语音识别(最终级)模型(aishell数据集训练的),源码地址:https://github.com/yeyupiaoling/PPASR
2021-10-13 19:08:50 613.22MB paddlepaddle 语音识别 asr 深度学习
1
语音识别源码(java) ASR Speaker Recognition Enhanced Voice Conference ! Yancheng!Li,!Liang!Wei,!Zhaoyuan!Zhang
2021-09-16 20:21:43 1.29MB 语音识别 ASR
1
标点预测 用于ASR输出的标点符号预测的支持工具。 给出或指出了三种模型; Tensorflow 2中的一个基于BERT的Transformer,一个seq2seq Transformer(均使用PyTorch)和一个双向RNN(Punctuator 2, )。 此外,在文件夹process还提供了用于预处理文本以供这些模型使用的代码。 基于BERT的转换器是来自的令牌分类转换器,在这里用于标点符号预测。 序列转换器的序列来自 ,它基于论文中描述的转换器。注意是您所需要的。 我们为转换器提供的所有内容是:1)数据预处理脚本,以获取用于这些模型的正确格式的数据以进行标点预测的任务,以及2)运行文件,其中对这些模型进行了标点预测的培训。 要求和安装 Python版本> = 3.6 NVIDIA GPU和NCCL 对于HuggingFace基于BERT的令牌分类器和Fairseq序列到序
2021-09-15 10:17:48 79KB Python
1
爱丁堡大学 语音识别(ASR)课程PPT,主要讲述语音识别(Auto Speech Recognition)基础概念及HMM、GMM和DNN。文档为英文版。
2021-09-12 13:40:25 12.54MB 语音识别 ASR HMM DNN
1