搜索【Speech 】的结果

卡尔迪戈普该项目使用Kaldi计算基于GMM的GOP（发音优度）。有关基于DNN的实现的说明此实现是基于GMM的。对于基于DNN的实现，请检查Kaldi的官方存储库： GOP-DNN的性能应该比GOP-GMM好得多。如何建造 ./build.sh 运行示例 cd egs/gop-compute ./run.sh 理论在传统的基于GMM-HMM的系统中，GOP最早是在（Witt等，2000）中提出的。它被定义为后验的持续时间标准化对数： $$ GOP（p）= \ frac {1} {t_e-t_s + 1} \ log p（p | \ mathbf o）$$ 其中$ \ mathbf o $是输入观测值，$ p $是规范电话，$ t_s，t_e $是开始和结束帧索引。假设对于任何$ q_i，q_j $，$ p（q_i）\ p（q_j）$，我们有： $$ \ lo

2021-12-06 13:20:45 15KB speech-recognition kaldi C++

1

C语音——语音播报系统

使用Microsoft Speech SDK 开发的一个简单的上课点名系统，可以作为使用Microsoft Speech SDK 初学者一个很好的demo....

2021-12-02 21:43:20 4.04MB Microsoft Speech SDK

1

DNN-Speech-Recognition.zip

DNN-Speech-Recognition - 基于深度神经网络的自动语音识别器，首先搭建几个简单网络进行尝试，然后根据测试结果来构建自己的深度神经网络模型。可用于机器学习/深度学习/自然语言处理等方面课程的课程项目。数据集是LibriSpeech的部分数据，不包含在此压缩包中，可以自行下载。

2021-12-02 18:44:56 1.8MB DNN ASR

1

ITU音频测试文件

ITU的音频测试文件，wav格式，包括汉语、美式英语、英式英语等。

2021-12-02 16:07:25 29.45MB ITU Speech files 音频

1

Speech-Enhancement-源码

言语增强文件DCUnet.ipynb源自的程序。已进行了一些修改，以使该程序可以在2021年2月在Colab的版本上运行。具体地说，笔记本电脑使用以下程序包： torchaudio == 0.5.0a0 + 738ccba tqdm == 4.56.2 numpy == 1.19.2 pesq == 0.0.2 scipy == 1.4.1 matplotlib == 3.3.1 火炬== 1.5.1 DCUnet16.ipynb：在16kHz波形文件上进行训练和测试DCUnet48.ipynb：在48kHz波形文件上进行训练和测试（类似于）

2021-12-01 10:49:26 1.22MB JupyterNotebook

1

Windows 文本转语音

1.自己的写了一个文本转语音的工具，包括了数字转文本，声音文件 2.最后发现可以用windows 7的Speech API直接朗读，很不错。简单实用。我写的突然间没用了？

2021-11-30 15:41:04 157KB 文本语音朗读 文本转语音 数字转文本 Speech语音

1

deep-clustering:单通道语音分离的深度聚类方法-源码

用于单通道语音分离的深度聚类 “用于分割和分离的深度聚类判别嵌入”的实现要求参见用法在.yaml文件中配置实验，例如： train.yaml 训练： python ./train_dcnet.py --config conf/train.yaml --num-epoches 20 > train.log 2>&1 & 推理： python ./separate.py --num-spks 2 $mdl_dir/train.yaml $mdl_dir/final.pkl egs.scp 实验配置时代调频 FF 毫米 FF /毫米 AVG 25 11.42 6.85 7.88 7.36 9.54 问与答 .scp文件的格式？ wav.scp文件的格式遵循kaldi工具箱中的定义。每行包含一个key value对，其中key是索引音频文件的唯一字符串，而值

2021-11-27 21:56:29 16KB pytorch speech-separation Python

1

Emotional-Speech-Data:这是GitHub页面，用于公开提供情感演讲数据-源码

用于语音合成和语音转换的公共可用情感语音数据集（ESD）这是GitHub页面，用于公开提供语音合成和语音转换的情感语音数据集（ESD）。该数据集包含10位以普通话为母语的人和10位以5种情感状态（中立，快乐，愤怒，悲伤和惊奇）的英语使用者说的350道平行话语。提供成绩单。下载整个数据集可以在这里下载：注意：对于来自中国大陆的用户，无法访问Google驱动器。请发送电子邮件至。我们将通过其他平台与您共享此数据集。纸如果您使用此数据集，请引用： @article{zhou2020seen, title={Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset}, author={Zhou, Kun and Sisman, B

2021-11-25 23:27:27 2KB

1

Speech-Emotion-Recognition:Speech emotion recognition implemented in Keras (LSTM, CNN, SVM, MLP) | 语音情感识别-源码

Speech Emotion Recognition 用 LSTM、CNN、SVM、MLP 进行语音情感识别，Keras 实现。改进了特征提取方式，识别准确率提高到了 80% 左右。原来的版本的存档在。 | 中文文档 Environments Python 3.6.7 Keras 2.2.4 Structure ├── models/ // 模型实现 │ ├── common.py // 所有模型的基类 │ ├── dnn // 神经网络模型 │ │ ├── dnn.py // 所有神经网络模型的基类 │ │ ├── cnn.py // CNN │ │ └── lstm.py // LSTM │ └── ml.py

2021-11-24 17:28:15 48.98MB svm cnn lstm mlp

1

emotion_detection_cpc:音频中的情感检测，利用受对比预测编码（CPC）训练的自我监督表示-源码

motion_detection_cpc 此存储库提供了使用语音作为输入的情感识别系统的代码。通过使用对比预测编码（CPC）训练的自我监督表示，可以提高性能。使用CPC时，结果的准确度从71％的基线提高到80％，这是30％的相对显着误差降低。博客在这里： : 初始设置安装依赖项 virtualenv -p python3.7 venv source venv/bin/activate make deps 下载资料 wget https://zenodo.org/record/1188976/files/Audio_Speech_Actors_01-24.zip $HOME/RAVDESS/Audio_Speech_Actors_01-24.zip unzip $HOME/RAVDESS/Audio_Speech_Actors_01-24.zip 创建训练，验证和测试数据

2021-11-23 16:38:19 55KB machine-learning speech emotion pytorch

1

个人信息

热门下载

最新下载

其他资源