Speech Emotion Recognition 用 LSTM、CNN、SVM、MLP 进行语音情感识别,Keras 实现。 改进了特征提取方式,识别准确率提高到了 80% 左右。原来的版本的存档在 。 | 中文文档   Environments Python 3.6.7 Keras 2.2.4   Structure ├── models/ // 模型实现 │   ├── common.py // 所有模型的基类 │   ├── dnn // 神经网络模型 │   │ ├── dnn.py // 所有神经网络模型的基类 │   │ ├── cnn.py // CNN │   │ └── lstm.py // LSTM │   └── ml.py
2021-11-24 17:28:15 48.98MB svm cnn lstm mlp
1
motion_detection_cpc 此存储库提供了使用语音作为输入的情感识别系统的代码。 通过使用对比预测编码(CPC)训练的自我监督表示,可以提高性能。 使用CPC时,结果的准确度从71%的基线提高到80%,这是30%的相对显着误差降低。 博客在这里: : 初始设置 安装依赖项 virtualenv -p python3.7 venv source venv/bin/activate make deps 下载资料 wget https://zenodo.org/record/1188976/files/Audio_Speech_Actors_01-24.zip $HOME/RAVDESS/Audio_Speech_Actors_01-24.zip unzip $HOME/RAVDESS/Audio_Speech_Actors_01-24.zip 创建训练,验证和测试数据
2021-11-23 16:38:19 55KB machine-learning speech emotion pytorch
1
Microsoft Speech SDK全部开发包
2021-11-23 09:07:39 72.71MB Microsoft Speech SDK全部开发包
1
建立语音口音档案库是为了统一展示来自各种语言背景的大量语音口音。讲英语的母语和非母语人士都阅读相同的英语段落,并进行了认真记录。存档被构造为教学工具和研究工具。它旨在供语言学家以及其他只希望听和比较不同英语使用者的口音的人使用。 通过此数据集,您可以比较说话者的人口统计学和语言背景,以确定哪些变量是每种口音的关键预测指标。语音重音档案库表明,重音是系统性的,而不仅仅是错误的语音。
2021-11-22 15:15:52 865.14MB 数据集
1
python语音识别基础,基于KNN的语音分类器。含有训练语音范例。利用DTW算法提取语音mfcc谱距离,使用sklearn进行建模。支持文件读取识别以及录音识别。
2021-11-22 14:38:17 360KB python KNN recognition speech
1
delphi调用Microsoft Speech SDK语音的例子
2021-11-22 14:30:27 177KB delphi Microsoft Speech 语音
1
unity Speech Recognition System
2021-11-21 14:07:45 48.25MB unity
1
使用WaveNet进行语音转文字 仍然需要弄清楚CTCLoss的南问题 基于DeepMind论文: 语音识别实现。 此实现的目的是结构合理,可重用且易于理解。 这里的流实现: 尽管WaveNet被设计为“文本到语音”模型,但该论文提到他们也在语音识别任务中对其进行了测试。 他们没有提供有关实现的具体细节,只是表明他们通过直接在TIMIT上对原始音频进行训练的模型在测试数据集上达到了18.8 PER。 我从修改了WaveNet模型,并将的语音识别实验。 下图显示了最终的体系结构。 (图片来源: ) 先决条件 系统 Linux CPU或(NVIDIA GPU + CUDA CuDNN) Python 3.6 图书馆 PyTorch = 0.4.0 librosa = 0.5.0 熊猫> = 0.19.2 == 0.11.0 数据集 我们使用了 , 和语料库。 由上
2021-11-18 20:12:04 216KB Python
1
利用Qt SDK 和 微软的Speech SDK5.1实现的文本朗读的小例子。支持中英文混读,支持设置语音音量和语音速度
2021-11-18 13:17:27 6KB Qt 文本朗读 SpeechSDK5.1
1
基于Microsoft Speech SDK开发的语音识别(VC源码)
2021-11-18 11:06:34 70KB visaul c++ 语音识别,SAPI,Speech
1