CASR-DEMO(中文自动语音识别演示系统) 关于本项目的一些说明 首先,欢迎大家关注项目,进行学习研究。收到一些小伙伴的问题我就集中回答下,这里是demo的源码,有两个版本其一是称为speech_env,这是一个简单的语音识别功能,界面如下面的效果图一;还有一个是V2.0的目录,这个版本功能比较齐全,界面如效果图二。有一点项目只在win10平台上测试过,其他不保证能不能运行。由于月久失更,有些依赖包可能需要修改,不过应该都是小问题,根据实际过程的报错信息修复就行。再次感谢大家的关注! 最新整理了两个版本的发布版 speech_env(效果图一) speechV2.0基于第三方接口实现语音识别和语音合成,说话人识别功能(效果图二) 微信:LHH754086474 于2019年12月25日更新。
2023-04-09 19:54:11 116.98MB 系统开源
1
激光 闪电自动语音识别 一个基于PyTorch-Lightning的MIT许可ASR研究库,用于开发端到端ASR模型。 介绍 是用于高性能AI研究的轻量级包装器。 PyTorch非常易于使用,可以构建复杂的AI模型。 但是一旦研究变得复杂,并且诸如多GPU训练,16位精度和TPU训练之类的东西混在一起,用户很可能会引入错误。 PyTorch Lightning恰好解决了这个问题。 Lightning构造了您的PyTorch代码,因此它可以抽象出培训的详细信息。 这使AI研究具有可扩展性,并且可以快速迭代。 该项目是使用PyTorch Lightning实现asr项目的示例。 在这个项目中,我训练了一个模型,该模型包括一个带有联合CTC注意的构象编码器+ LSTM解码器。 所述LASR装置升ighthning一个utomatic小号peechřecognition。 我希望这可以成为那些研究
1
DFT的matlab源代码MFCC自动语音识别算法的实现 用于自动语音识别(ASR)的梅尔频率倒谱系数(MFCC)和动态时间规整(DTW)算法的Python 2.7实现。 方法 从.wav文件读取音频数据和采样频率 帧信号 将窗口功能应用于框架(默认值=汉明) 计算帧的DFT 计算每个DFT仓的周期图功率谱密度估计 应用梅尔频率滤波器组进行信号 对每个滤波器内的能量求和,并以10为底的对数 取每个滤波器的DCT 保持系数[1:13] 计算参考向量和输入向量的DTW最佳路径和欧式距离 去做 噪音门 预加重/提升 特征向量数据库 音频记录/播放( audio.py ) 多线程MFCC提取 创建MFCC提取程序作为类?
2022-05-12 08:40:21 7.83MB 系统开源
1
用TensorFlow实现的端到端自动语音识别系统 Automatic-Speech-Recognition 在 TensorFlow 中实现的端到端自动语音识别系统。 最近更新支持 TensorFlow r1.0 (2017-02-24) 支持动态 rnn 的 dropout (2017-03-11) 支持在 shell 文件中运行 (2017-03-11) 支持每几个训练周期自动评估 (2017-03- 11) 修复字符级自动语音识别的bug (2017-03-14) 改进一些可重用的函数apis (2017-03-14) 为数据预处理添加缩放(2017-03-15) 为LibriSpeech 训练添加可重用支持( 2017-03-15) 添加简单的 n-gram 模型用于随机生成或统计使用 (2017-03-23) 改进一些用于预处理和训练的代码 (2017-03-23) 用空格替换 TAB 并添加 nist2wav 转换器脚本(2017-04-20) 增加一些数据准备代码 (2017-05-01) 增加WSJ 语料库标准预处理s5 recipe (2017-05-05) 项目
2022-05-06 15:00:21 189KB 机器学习
1
该设计以FPGA为小车运行部分主控,嵌入式系统为小车控制部分主控完成了智能驾驶小车的系统设计,该系统可由非特定人声控制,具有人声控制和实体遥感控制两种驾驶方案,其特色在于采用FPGA而非STM32实现对LD3320的控制,以达到语音识别效果,并完成了实物的制作,同时配备倒车雷达和自动避障功能。实物制作结果表明,该系统较为完整稳定,有较好的实际运用价值。
1
嘿,杰森! 自动语音识别推理 布莱斯·沃克(Brice Walker) 该项目在Keras / Tensorflow中构建了一个可扩展的,基于注意力的语音识别平台,以便在Edge上针对AI的Nvidia Jetson嵌入式计算平台进行推理。 自动语音识别的这种实际应用是受我以前在心理健康领域的职业启发的。 该项目开始了为构建实时治疗干预推断和反馈平台的旅程。 最终目的是构建一个工具,该工具可以为治疗师提供有关其干预效果的实时反馈,但是设备上的语音识别在移动,机器人或其他不希望基于云的深度学习的领域中具有许多应用。 该项目的重点是应用数据科学而不是学术研究。 最终的生产模型由一个深度神经网络组成,该网络具有3层扩张的卷积神经元,7层双向递归神经元(GRU细胞),一个单注意层和2层时间分布的密集神经元。 该模型利用了CTC损失函数,Adam优化器,批量归一化,扩张卷积,递归辍学,双向层和基于注意的机制。 该模型在Nvidia GTX1070(8G)GPU上进行了30个时期的训练,总训练时间约为6.5天。 该模型的预测与测试集中的地面真实转录的整体余弦相似度约为78%(验证集中为80%)
2021-11-04 17:57:23 1.87GB css python html flask
1
Pytorch 上的端到端语音识别 基于 Transformer 的语音识别模型 如果您在工作中使用了本工具包中包含的任何源代码,请引用以下论文。 Winata,GI,Madotto,A.,Wu,CS,&Fung,P.(2019年)。 使用来自并行句子的基于神经的合成数据的代码切换语言模型。 在第23届计算自然语言学习会议(CoNLL)的会议记录中(第271-280页)。 Winata, GI, Cahyawijaya, S., Lin, Z., Liu, Z., & Fung, P. (2019)。 使用 Low-Rank Transformer 的轻量级和高效的端到端语音识别。 arXiv 预印本 arXiv:1910.13923。 (被ICASSP 2020接受) Zhou, S., Dong, L., Xu, S., & Xu, B. (2018)。 使用 Transfor
2021-09-05 18:50:50 106KB end-to-end speech pytorch transformer
1
MASR中文语音识别 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目。 原理 MASR使用的是门控卷积神经网络(Gated Convolutional Network),网络结构在Facebook在2016年提出的Wav2letter。但是使用的激活函数不是ReLU HardTanh ,而不是GLU (门控线性单元)。因此根据我的实验,使用GLU的收敛速度比HardTanh要快。如果您想要研究卷积网络用于语音识别的效果,这个项目可以作为一个参考。 以下用字错误率CER来假定模型的表现,CER =编辑距离/句子长度,越低越好 大致可以理解为1-CER就是识别准确率。 模型使用AISHELL-1数据集训练,共150小时的录音,覆盖了4000多个汉字。工业界使用的语音识别系统通常使用至少10倍于本项目的录音数据来训练,同时使用特定场景的语料来训练语言模型,所以,不要期待本项目可以
1
中文语音识别硕士论文,自称识别率达到97%,你应该看看。是繁体中文的。
2021-07-26 12:49:49 1.41MB GMM PPM MFCC
1
wenet 自动语音识别开发库及测试程序(ASR),windows版本(很难编译)
2021-07-16 09:11:54 180.67MB wenet ASR 语音识别
1