演示语音情感应用 演示语音情感检测器
2022-03-08 16:48:26 9.28MB Hack
1
OpenASR的 基于pytorch的end2end语音识别系统。 主要体系结构是 。 特征 最小依赖。 该系统不依赖外部软件进行特征提取或解码。 用户只需安装PyTorch深度学习框架。 良好的表现。 该系统包括高级算法,例如标签平滑,SpecAug,LST,并在ASHELL1上实现了良好的性能。 AISHELL1测试的基准CER为6.6,优于ESPNet。 模块化设计。 我们将系统分为几个模块,例如培训师,指标,进度表,模型。 扩展和添加功能很容易。 End2End 。 特征提取和标记化是在线的。 系统直接处理波形文件。 因此,该过程大大简化了。 相依性 python> = 3.6 火炬> = 1.1 pyyaml> = 5.1 tensorflow和tensorboardX进行可视化。 (如果不需要可视化结果,可以在src / utils.py中将TENSORBOARD_
2022-03-08 11:24:36 2.24MB speech transformer speech-recognition las
1
MevonAI-语音情感识别 识别音频段中多个发言人的情绪· 在这里尝试演示 目录 说话人二值化 特征提取 CNN模型 训练模型 贡献 执照 致谢 常问问题 关于该项目 该项目的主要目的是识别呼叫音频中多个说话者的情绪,作为呼叫中心客户满意度反馈的应用程序。 建于 的Python 3.6.9 Tensorflow-Keras 解放军 入门 按照以下说明在本地计算机上设置项目。 安装 创建一个python虚拟环境 sudo apt install python3-venv mkdir mevonAI cd mevonAI python3 -m venv mevon-env source mevon-env/bin/activate 克隆仓库 git clone https://github.com/SuyashMore/MevonAI-Speech-Emotion-Recog
1
Voxseg Voxseg是用于语音活动检测(VAD)的Python软件包,用于语音/非语音音频分段。 它提供了完整的VAD流水线,包括一个预训练的VAD模型,并且基于介绍的工作。 该VAD的使用可引述如下: @inproceedings{cnnbilstm_vad, title = {A hybrid {CNN-BiLSTM} voice activity detector}, author = {Wilkinson, N. and Niesler, T.}, booktitle = {Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)}, year = {2021}, address = {Toronto, Cana
2022-03-02 18:46:08 36.16MB python python-library speech vad
1
c#speech原码测试,含Win7系统TTS修复-采用原生Win7提取绿修复,直接使用可生成语音文件,朗读
2022-02-27 15:35:38 75.49MB speech 语音
1
下载官方microsoft speech sdk 包括语音包,运行库。sdk镜像。直接安装,运行demo即可。demo已经调通。在前人基础上迁移到qt5,并 优化修复了bug.可以正常识别。
2022-02-25 16:59:33 49.55MB qt5 sapi 11 语音识别
1
系统依赖DLL动态库
2022-02-23 14:00:08 193KB dll
Microsoft Speech语言包
2022-02-21 09:04:53 295.76MB microsoft
1
语音识别ANN的实现 使用人工神经网络实现语音识别。 使用语言:Python 您需要numpy和scipy才能使其正常工作。 可以识别的词:“ Apple”,“ Banana”,“ Kiwi”,“ Lime”,“ Orange” #如何添加新词 在Audacity或任何音频处理软件中记录您的新单词。 将采样率设置为44100Hz,然后导出到.wav文件。 最好录制许多来自不同扬声器的样本,以提高准确性。 将wav文件放入training_sets目录。 将您的wav文件重命名为您要添加的单词+ -sample_index(例如:hello-1.wav,hello-2.wav)。 这样,特征提取器以后就可以轻松地在文件中进行迭代。 在featureExtractor.py中,将新单词附加到单词数组。 运行featureExtractor.py。 将在mfccData文件夹中生成
2022-02-17 11:07:48 3.63MB Python
1
这是用于语音转换的VQ-VAE模型的实现。 到目前为止,结果还不如DeepMind令人印象深刻(您可以找到其结果)。 我的估计是语音质量为2-3,清晰度为3-4(按5阶平均意见得分)。 欢迎捐款。 当前结果 音频样本 经过50万步训练(约2天)后的结果: 来源1: (我们消息感到鼓舞) 目标1: 资料来源2: (谁是神秘议员?) 目标2: 资料来源3: (在阿伯丁亚历克斯·弗格森(Alex Ferguson)的下,这是可以做到的。 目标3: 资料来源4: (那是一个艰辛的时刻。) 目标4: 笔记: 格式:[发言人] _ [句子] 作者没有在上指定目标演讲者。 演讲者空间 VQ-VAE学习的扬声器空间的PCA-2D(Tensorboard屏幕截图)。 请注意,性别是自然分开的,如Deep Voice 2的图4所示。 有趣的是, p280的性别未在VCTK发布的Spea
2022-02-16 13:14:43 155KB Python
1