卡尔迪戈普 该项目使用Kaldi计算基于GMM的GOP(发音优度)。 有关基于DNN的实现的说明 此实现是基于GMM的。 对于基于DNN的实现,请检查Kaldi的官方存储库: GOP-DNN的性能应该比GOP-GMM好得多。 如何建造 ./build.sh 运行示例 cd egs/gop-compute ./run.sh 理论 在传统的基于GMM-HMM的系统中,GOP最早是在(Witt等,2000)中提出的。 它被定义为后验的持续时间标准化对数: $$ GOP(p)= \ frac {1} {t_e-t_s + 1} \ log p(p | \ mathbf o)$$ 其中$ \ mathbf o $是输入观测值,$ p $是规范电话,$ t_s,t_e $是开始和结束帧索引。 假设对于任何$ q_i,q_j $,$ p(q_i)\ p(q_j)$,我们有: $$ \ lo
2021-12-06 13:20:45 15KB speech-recognition kaldi C++
1
使用Microsoft Speech SDK 开发的一个简单的上课点名系统,可以作为使用Microsoft Speech SDK 初学者一个很好的demo....
2021-12-02 21:43:20 4.04MB Microsoft Speech SDK
1
DNN-Speech-Recognition - 基于深度神经网络的自动语音识别器,首先搭建几个简单网络进行尝试,然后根据测试结果来构建自己的深度神经网络模型。可用于机器学习/深度学习/自然语言处理等方面课程的课程项目。数据集是LibriSpeech的部分数据,不包含在此压缩包中,可以自行下载。
2021-12-02 18:44:56 1.8MB DNN ASR
1
ITU的音频测试文件,wav格式,包括汉语、美式英语、英式英语等。
2021-12-02 16:07:25 29.45MB ITU Speech files 音频
1
言语增强 文件DCUnet.ipynb源自的程序。 已进行了一些修改,以使该程序可以在2021年2月在Colab的版本上运行。具体地说,笔记本电脑使用以下程序包: torchaudio == 0.5.0a0 + 738ccba tqdm == 4.56.2 numpy == 1.19.2 pesq == 0.0.2 scipy == 1.4.1 matplotlib == 3.3.1 火炬== 1.5.1 DCUnet16.ipynb:在16kHz波形文件上进行训练和测试DCUnet48.ipynb:在48kHz波形文件上进行训练和测试(类似于 )
2021-12-01 10:49:26 1.22MB JupyterNotebook
1
1.自己的写了一个文本转语音的工具,包括了数字转文本,声音文件 2.最后发现可以用windows 7的Speech API直接朗读,很不错。简单实用。 我写的突然间没用了?
1
用于单通道语音分离的深度聚类 “用于分割和分离的深度聚类判别嵌入”的实现 要求 参见 用法 在.yaml文件中配置实验,例如: train.yaml 训练: python ./train_dcnet.py --config conf/train.yaml --num-epoches 20 > train.log 2>&1 & 推理: python ./separate.py --num-spks 2 $mdl_dir/train.yaml $mdl_dir/final.pkl egs.scp 实验 配置 时代 调频 FF 毫米 FF /毫米 AVG 25 11.42 6.85 7.88 7.36 9.54 问与答 .scp文件的格式? wav.scp文件的格式遵循kaldi工具箱中的定义。 每行包含一个key value对,其中key是索引音频文件的唯一字符串,而值
2021-11-27 21:56:29 16KB pytorch speech-separation Python
1
用于语音合成和语音转换的公共可用情感语音数据集(ESD) 这是GitHub页面,用于公开提供语音合成和语音转换的情感语音数据集(ESD)。 该数据集包含10位以普通话为母语的人和10位以5种情感状态(中立,快乐,愤怒,悲伤和惊奇)的英语使用者说​​的350道平行话语。提供成绩单。 下载 整个数据集可以在这里下载: 注意:对于来自中国大陆的用户,无法访问Google驱动器。请发送电子邮件至 。我们将通过其他平台与您共享此数据集。 纸 如果您使用此数据集,请引用: @article{zhou2020seen, title={Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset}, author={Zhou, Kun and Sisman, B
2021-11-25 23:27:27 2KB
1
Speech Emotion Recognition 用 LSTM、CNN、SVM、MLP 进行语音情感识别,Keras 实现。 改进了特征提取方式,识别准确率提高到了 80% 左右。原来的版本的存档在 。 | 中文文档   Environments Python 3.6.7 Keras 2.2.4   Structure ├── models/ // 模型实现 │   ├── common.py // 所有模型的基类 │   ├── dnn // 神经网络模型 │   │ ├── dnn.py // 所有神经网络模型的基类 │   │ ├── cnn.py // CNN │   │ └── lstm.py // LSTM │   └── ml.py
2021-11-24 17:28:15 48.98MB svm cnn lstm mlp
1
motion_detection_cpc 此存储库提供了使用语音作为输入的情感识别系统的代码。 通过使用对比预测编码(CPC)训练的自我监督表示,可以提高性能。 使用CPC时,结果的准确度从71%的基线提高到80%,这是30%的相对显着误差降低。 博客在这里: : 初始设置 安装依赖项 virtualenv -p python3.7 venv source venv/bin/activate make deps 下载资料 wget https://zenodo.org/record/1188976/files/Audio_Speech_Actors_01-24.zip $HOME/RAVDESS/Audio_Speech_Actors_01-24.zip unzip $HOME/RAVDESS/Audio_Speech_Actors_01-24.zip 创建训练,验证和测试数据
2021-11-23 16:38:19 55KB machine-learning speech emotion pytorch
1