TIMIT TRAIN数据集DR2, 已转换为WAV格式,包括每条语音的标注。
2022-03-12 17:41:41 38.13MB 语音识别 kaldi
1
Qt文字转语音文字转语音源码
2022-03-12 16:54:50 43KB qt 语音识别
1
毕业设计 语音识别程序 vc++ 毕业设计 语音识别程序 vc++
2022-03-10 15:47:12 790KB 毕业设计 语音识别程序
1
TIMIT Acoustic Phonetic Continuous Speech Corpus 是一个英语语音识别数据,包括 630人8个不同地区的美国方言录制的音频信息。
2022-03-10 11:34:26 416.07MB 语音识别 音频语料
1
语音识别相关资料,详细描述了语音识别的具体细节。是比较好看的资料.用的方法包括hmm。dtw 。mfcc等。是语音识别系统的设计文档
2022-03-08 21:00:07 5.93MB 语音识别
1
详细介绍了语音识别的基本过程及用到的方法及思想,总体框架是围绕HMM模型组织的。
2022-03-08 20:59:19 274KB HMM 语音识别
1
基于HMM的视听语音识别系统,史秋萍,,语音识别技术是一门涉及面很广的交叉学科,具有很大的研究价值。本文提出了一种基于隐马尔可夫模型(HMM)的视听融合的语音识别系
2022-03-08 20:57:16 181KB HMM
1
语音识别使机器可以通过识别和理解过程将语音信号转换为文本。 提取特征,预测最大可能性并生成输入语音信号的模型被认为是配置自动语音识别系统(ASR)的最重要步骤。 本文利用MATLAB建立了一个自动阿拉伯语语音识别系统,并从19位阿拉伯语母语使用者中记录了24个阿拉伯语单词Consonant-Vowel Consonant-Vowel Consonant-Vowel(CVCVCV),每个说话者说出同一单词3次(共1368个单词) )。 为了测试该系统,通过将语音信号划分为约0.25秒的帧和0.10秒的偏移,提取了39个特征。 在后端,通过将特征分成4到10之间的状态数来生成统计模型,每个状态具有8高斯分布。 数据具有48 k采样率和32位深度,并以wave文件格式单独保存。 该系统接受了语音丰富而均衡的阿拉伯语语音列表训练(10个发言人* 3次* 24个单词,总共720个单词),并使用另一个单词列表(24个词语* 9个发言人* 3次*,总共648个单词)进行了测试。 使用不同说话者的相似单词,系统获得了非常好的单词识别准确度结果,为92.92%,单词错误率(WER)为7.08%。
2022-03-08 20:54:24 549KB 行业研究
1
OpenASR的 基于pytorch的end2end语音识别系统。 主要体系结构是 。 特征 最小依赖。 该系统不依赖外部软件进行特征提取或解码。 用户只需安装PyTorch深度学习框架。 良好的表现。 该系统包括高级算法,例如标签平滑,SpecAug,LST,并在ASHELL1上实现了良好的性能。 AISHELL1测试的基准CER为6.6,优于ESPNet。 模块化设计。 我们将系统分为几个模块,例如培训师,指标,进度表,模型。 扩展和添加功能很容易。 End2End 。 特征提取和标记化是在线的。 系统直接处理波形文件。 因此,该过程大大简化了。 相依性 python> = 3.6 火炬> = 1.1 pyyaml> = 5.1 tensorflow和tensorboardX进行可视化。 (如果不需要可视化结果,可以在src / utils.py中将TENSORBOARD_
2022-03-08 11:24:36 2.24MB speech transformer speech-recognition las
1
天津大学的论文,拿出来和大家分享,文章中含有matlab代码
2022-03-08 02:08:26 237KB 语音识别
1