SIMCom模组固件下载工具ABOOT,适用于SIMCom ASR平台模组软件包/固件包/Open-CPU下载,包含X86/X64 WINDOWS系统版本,以及ABOOT使用说明文档。
2023-12-09 02:00:36 310.33MB
1
MASR的V2版本训练Conformer模型文件,使用Fbank,Pytorch,训练数据为超大数据集,13000+小时。 源码地址:https://github.com/yeyupiaoling/MASR
2023-02-02 17:35:43 435.03MB pytorch asr 语音识别 wenetspeech
激光 闪电自动语音识别 一个基于PyTorch-Lightning的MIT许可ASR研究库,用于开发端到端ASR模型。 介绍 是用于高性能AI研究的轻量级包装器。 PyTorch非常易于使用,可以构建复杂的AI模型。 但是一旦研究变得复杂,并且诸如多GPU训练,16位精度和TPU训练之类的东西混在一起,用户很可能会引入错误。 PyTorch Lightning恰好解决了这个问题。 Lightning构造了您的PyTorch代码,因此它可以抽象出培训的详细信息。 这使AI研究具有可扩展性,并且可以快速迭代。 该项目是使用PyTorch Lightning实现asr项目的示例。 在这个项目中,我训练了一个模型,该模型包括一个带有联合CTC注意的构象编码器+ LSTM解码器。 所述LASR装置升ighthning一个utomatic小号peechřecognition。 我希望这可以成为那些研究
1
语音识别模型,我自己写了一段代码,很好用,准确率百分之九十
自带原生小程序,人工实时监听,实时介入,至臻品牌打造者,您背后的技术支撑。
2022-08-04 18:01:38 37.37MB Java 电销机器人 ASR语音识别 电话机器人
1
LAS-Pytorch 这是我的(LAS)谷歌ASR深度学习模型的pytorch实现。 我同时使用了mozilla 数据集和数据集。 借助torchaudio,在加载文件的同时即可快速完成功能转换。 结果 由于我的GPU没有足够的内存,因此这是采用相当小的体系结构进行的4个训练周期的LER(信笺错误率)和损失度量。 侦听器具有128个神经元和2层,而Speller具有256个神经元和2层。 我们可以看到模型如何从我们提供给它的数据中学习,但是它仍然需要更多的训练和适当的架构。 字母错误率 失利 如果我们尝试预测音频样本,则结果如下所示: true_y :['A','N','D',','S','T','I','L','L',','N','O',' ','A','T','T','E','M','P','T',','B','Y','','T','H ','E','','P','O']
2022-05-22 20:41:55 177KB pytorch las e2e asr
1
语音识别 Tensorflow CTC 声学模型训练源代码 ,代码解析在https://blog.csdn.net/u012361418,希望能帮到初入语音识别的同学,欢迎大家提出宝贵的建议,大家一起学习,功能进步。
2022-05-12 16:31:38 23KB CTC TENSORFLOW ASR
1
DFT的matlab源代码MFCC自动语音识别算法的实现 用于自动语音识别(ASR)的梅尔频率倒谱系数(MFCC)和动态时间规整(DTW)算法的Python 2.7实现。 方法 从.wav文件读取音频数据和采样频率 帧信号 将窗口功能应用于框架(默认值=汉明) 计算帧的DFT 计算每个DFT仓的周期图功率谱密度估计 应用梅尔频率滤波器组进行信号 对每个滤波器内的能量求和,并以10为底的对数 取每个滤波器的DCT 保持系数[1:13] 计算参考向量和输入向量的DTW最佳路径和欧式距离 去做 噪音门 预加重/提升 特征向量数据库 音频记录/播放( audio.py ) 多线程MFCC提取 创建MFCC提取程序作为类?
2022-05-12 08:40:21 7.83MB 系统开源
1
使用TORGO数据集进行语音处理 有关使用Kaldi进行韵律性语音识别和说话者识别的教程。 所使用的数据由多伦多大学免费提供。 说话者由于脑瘫或肌萎缩性侧索硬化症而导致语言障碍。 这项运动的目标 建立用于语音识别的基于kaldi的GMM​​-HMM声学模型。 提高对受损语音的识别精度(数据增强,超参数调整等) 使用GMM-HMM模型中的路线训练DNN-HMM声学模型。 通过i向量执行说话者识别/识别。 栏目 第1部分: 第2部分: 第3部分: GMM-HMM声学模型 DNN-HMM声学模型 第4部分: 栏目详细信息 第1部分安装 卡尔迪 SRI语言建模工具包 Sequitur音素到音素转换器 英特尔MKL(数学内核库) 第2部分数据准备 音频数据下载 我们需要创建的文件 Kaldi目录结构 第三部分语音识别 N-gram语言模型构建 MFCC提取+ CMVN(倒数均值和方差归一
2022-05-09 20:41:54 110KB JupyterNotebook
1
语音识别论文及教材,包含传统语音识别、端到端语音识别等
2022-04-07 19:33:06 35.85MB 语音识别
1