包含声学模型和语言模型两个部分组成,两个模型都是基于神经网络。 该项目实现了GRU-CTC中文语音识别声音模型,所有代码都在gru_ctc_am.py中,包括: 增加了基于科大讯飞DFCNN的CNN-CTC结构的中文语音识别模型cnn_ctc_am.py,与GRU相比,对网络结构进行了稍加改造。 完全使用DFCNN框架搭建声学模型,稍加改动,将部分卷积层改为inception,使用时频图作为输入,cnn_with_fbank.py。 新增使用pluse版数据集的模型,cnn_with_full.py,建议直接训练这个模型。 语言模型 - language_model文件夹下 新增基于CBHG结构的语言模型language_model\CBHG_lm.py,该模型之前用于谷歌声音合成,移植到该项目中作为基于神经网络的语言模型。
2024-05-07 18:47:06 34.52MB 神经网络 深度学习 语音识别
1
基于单片机的智能语音识别系统设计-毕业设计-论文.doc
2024-05-01 11:04:34 862KB
1
毕业设计-语音识别系统-GUI-python.zip
2024-03-06 11:32:03 6KB python
1
VC++视频开发实例集锦(包括“远程视频监控”"语音识别系统"等13个经典例子)
2023-11-07 08:00:41 3.7MB VC++视频开发
1
基于LabVIEW平台的语音识别系统的设计
2023-10-13 23:31:17 149KB LabVIEW 语音识别
1
资源包含文件:设计报告word+源码及数据 该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模,其中声学模型包括 CNN-CTC、GRU-CTC、CNN-RNN-CTC,语言模型包含 transformer、CBHG,数据集包含 stc、primewords、Aishell、thchs30 四个数据集。 声学模型采用 CTC 进行建模,采用 CNN-CTC、GRU-CTC、FSMN 等模型 model_speech,采用 keras 作为编写框架。 详细介绍参考:https://biyezuopin.blog.csdn.net/article/details/122512802?spm=1001.2014.3001.5502
1、项目中包含详细的说明文档和PPT、小程序运行视频,可直接用作课程设计、毕业设计的参考; 2、详细内容可查看:https://blog.csdn.net/qq_43627520/article/details/123181583?spm=1001.2014.3001.5502 1、项目中包含详细的说明文档和PPT、小程序运行视频,可直接用作课程设计、毕业设计的参考; 2、详细内容可查看:https://blog.csdn.net/qq_43627520/article/details/123181583?spm=1001.2014.3001.5502 1、项目中包含详细的说明文档和PPT、小程序运行视频,可直接用作课程设计、毕业设计的参考; 2、详细内容可查看:https://blog.csdn.net/qq_43627520/article/details/123181583?spm=1001.2014.3001.5502
2023-04-05 17:16:40 102.57MB 深度学习 语音识别 课程设计
1
该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模,其中声学模型包括CNN-CTC、GRU-CTC、CNN-RNN-CTC,语言模型包含transformer、CBHG,数据集包含stc、primewords、Aishell、thchs30四个数据集。 本项目现已训练一个迷你的语音识别系统,将项目下载到本地上,下载 thchs 数据集并解压至 data,运行 test.py,不出意外能够进行识别,结果如下: the 0 th example. 文本结果: lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de di3 se4 si4 yue4 de lin2 luan2 geng4 shi4 lv4 de2 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2 原文结果: lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de di3 se4 si4 yue4 de lin2 luan2 geng4 shi4 lv4 de2 xi
2023-03-02 18:14:02 108.36MB 语音识别 深度学习 语音 识别
1
语音识别 使用TensorFlow实现语音识别系统。 中篇文章的更多说明: : 二手图书馆 pip install tensorflow tensorflow_io 文件说明 test_load.py 加载Mozilla Common Voice的标签文件: : test_lstm.py 简单的LSTM模型可预测单词序列中的下一个单词。 它使用Mozilla Common Voice数据集标签文件。 test_trad.py Seq2Seq模型以与输入相同的语言翻译句子。 它使用Mozilla Common Voice数据集标签文件。 test_words.py 简单的LSTM模型可将音频转换为单词。 它使用语音命令数据集: : test_wordsFr.py 简单的LSTM模型可将音频转换为法语单词。 它使用此存储库中包含的自制数据集。 test_words_com
2023-01-30 10:23:58 13.83MB Python
1
基于深度学习的噪声抑制与语音识别系统源码+教程(毕业设计).zip 已获导师指导并通过的高分项目 下载后运行ASRT文件下的GUI.py即可 系统功能如下 1、噪声抑制: (1)提供对音频进行转换成频谱图,让用户分析起来更加直观。 (2)可以进行录音,并将录进的音频内容保存到指定的文件夹中。 (3)同时可以对录进的音频进行添加噪音,添加研究内容。 (4)可以对录制的音频进行降噪处理,使录进的音频听起来更加清晰。 (5)可以将处理后的音频播放出来。 2、语音合成: (1)提供对用户想输入的两段文字的编辑功能。 (2)可以将用户输入的两段文字合成为一段文字并将文字转换为音频信息。 (3)可以存取转换后的音频,也可以存取任意一段文字所转换的音频。 (4)可以将存取的音频播放出来 3、语音识别: (1)提供对于用户输入的音频进行录制。 (2)可以将用户录入的音频存储到指定路径中并进行播放。 (3)将存储的音频识别成文字的方式进行输出。以下为系统使用说明 主界面 当用户进入主界面时,题目为噪声抑制实验与语音合成系统,主界面标题为语音识别系统,我们的功能主要围绕语音合成和降噪而展开,主界面有