语音识别算法主要涉及特征提取、统计建模和识别技术等几个关键方面。在此使用MFCC+DTW算法的方式给出语音识别的代码,首先进行简单介绍。 参考我的博客: https://blog.csdn.net/weixin_44584198/article/details/132922642?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22132922642%22%2C%22source%22%3A%22weixin_44584198%22%7D
2024-05-20 10:18:34 1018KB 语音识别
1
支持语音WIFI按键控制四种垃圾桶开关,同时支持语音模块对话进行垃圾分类,WIFI采用TCP局域网方式,请在烧录ESP01S的AT固件后进行STM32通信,可以使用网络调试精灵等支持TCP通信的APP进行测试,后期可以自行设计APP。语音模块采用ASRPRO,支持中文和C语言两个编程方式,图形化界面简单操作。
2024-05-20 10:11:48 25.78MB stm32
1
思科VG224模拟语音网关 固件vg224-i6s-mz.124-24.T8.bin
2024-05-20 09:58:09 20.7MB
1
CASIA语音情感语料库,共包括四个专业发音人,六种情绪生气(angry)、高兴(happy)、害怕(fear)、悲伤。4个人(2男2女),50个句子,6种情绪,即不同人对相同的文本赋以不同的情感来阅读,这些语料可以用来对比分析不同情感状态下的声学及韵律表现。
2024-05-18 18:16:50 56.08MB 人工智能 语音识别 情绪识别
1
离线文字转语音——Overtone - Realistic AI Offline Text to Speech (TTS)
2024-05-17 14:50:19 225.58MB 人工智能 Unity
1
医疗器械报警语音(依据法规9706.108-2021)
2024-05-16 17:25:28 64KB 医疗器械
1
13.语音旁边-电影配音.mp4
2024-05-10 11:09:52 33.61MB
1
MS-TTS影视解说配音工具神器 解锁版 微软TTS文本转语音引擎的确是非常NB,合成语音非常接近真人,应该是当前同类产品中体验最好的,官网有提供在线语音合成,但不提供合成后的音频文件下载,使用时会比较麻烦,所以写成工具。 注意 1、记得先解压,且解压保存文件夹完整路径不能包含空格、英文小括号等特殊字符,否则将导致无法合并。 2、如果可以,请使用管理员模式运行程序! 3、简单模式-超长文本:导入的txt文件编码必须为utf-8,文件大小不要超过5MB; 4、试听功能:试听范围为主体内容前150字符; 5、SSML模式:试听模式主体内容长度不得超过150字符,合成模式主体内容长度不得超过2500字符; 更新内容: 1.9.5 1、界面大小可自行调整; 2、Edge接口数据汉化; 3、角色数量增加到20个; 4、恢复强制更新。(原因请自行理解) 5、其它bug修复 1.9.5.1 稳定性修复 1.9.5.2 微软接口wav格式无法合并bug修复 1.9.5.3 修复“Invalid characters in file name”
2024-05-09 18:16:56 30.1MB
1
包含声学模型和语言模型两个部分组成,两个模型都是基于神经网络。 该项目实现了GRU-CTC中文语音识别声音模型,所有代码都在gru_ctc_am.py中,包括: 增加了基于科大讯飞DFCNN的CNN-CTC结构的中文语音识别模型cnn_ctc_am.py,与GRU相比,对网络结构进行了稍加改造。 完全使用DFCNN框架搭建声学模型,稍加改动,将部分卷积层改为inception,使用时频图作为输入,cnn_with_fbank.py。 新增使用pluse版数据集的模型,cnn_with_full.py,建议直接训练这个模型。 语言模型 - language_model文件夹下 新增基于CBHG结构的语言模型language_model\CBHG_lm.py,该模型之前用于谷歌声音合成,移植到该项目中作为基于神经网络的语言模型。
2024-05-07 18:47:06 34.52MB 神经网络 深度学习 语音识别
1