只为小站
首页
域名查询
文件下载
登录
LRS3-For-
Speech-Separation
:LRS3数据集上的多模式语音分离任务数据生成脚本
生成数据的指令 以下是生成训练和测试数据的步骤。 有几个参数可以更改以匹配不同的目的。 我们将尽快在LRS3数据集上发布语音分离基准。 我们的脚本存储库是为了使多模式语音分离任务在数据集生成方面具有统一的标准。 这样我们就可以跟进多模式语音分离任务。 我们希望LRS3数据集将为诸如WSJ0数据集之类的纯语音分离任务制定统一的生成标准。 :check_box_with_check: 我们的基准模型即将推出! 信噪比 信噪比 基准线 15.08 15.34 要求 ffmpeg 4.2.1 袜14.4.2 numpy的1.17.2 OpenCVPython的4.1.2.30 librosa 0.7.0 dlib 19.19.0 face_recognition 1.3.0 第1步-获取原始数据 在这种方法中,我们使用“数据集作为我们的训练,验证和测试集。 Afouras T,Chung JS,Senior
2026-02-03 22:03:46
3.48MB
data-processing
multimodal
MATLAB
1
Speech-Separation
:语音分离的最后一年项目
PyTorch + Catalyst实现的“ 。 该存储库处理培训过程。 为了进行推断,请检出GUI包装器:PyQT中的 。 该储存库已与合并为。 目录 要求 计算方式 我们在1050 Mobile和Tesla V100的两个GPU上运行了该程序。 我们没有进行任何基准测试,但是V100的速度大约提高了400倍。 它还取决于您下载的数据量。 因此,任何服务器级GPU都是可行的。 贮存 该程序确实会生成很多文件(下载和其他方式)。 每个音频文件的大小为96kiB。 对于7k独特的音频剪辑,并以70/30的比例进行火车和验证拆分,它占用了约120GiB的存储空间。 因此,如果您下载更多音频片段,则至少为1TB 。 记忆 至少需要4GB VRAM 。 它可以处理2个批处理大小。在20个批处理大小下,在两个GPU上,每个GPU占用16GiB VRAM。 设置 如果您使用的是Docker,则
2023-04-12 18:15:47
1.03MB
neural-network
signal-processing
pytorch
spectrogram
1
提取均值信号特征的matlab代码-PIT-LSTM-
Speech-Separation
:用于语音分离的PIT的张量流实现
提取均值信号特征的matlab代码两个扬声器的基于 LSTM/BLSTM 的 PIT 在多通话者混合语音分离和识别方面取得的进展,通常被称为“鸡尾酒会问题”,并没有那么令人印象深刻。 尽管人类听众可以很容易地感知混合声音中的不同来源,但对于计算机来说,同样的任务似乎极其困难,尤其是当只有一个麦克风记录混合语音时。 1. 运行性能 注意:训练集和验证集包含通过从 WSJ0 集中随机选择说话者和话语生成的两个说话者混合,并以 -2.5 dB 和 2.5 dB 之间统一选择的各种信噪比 (SNR) 混合它们. 对于LSTM ,不同性别的混合音频结果如下: 对于BLSTM ,不同性别的混合音频结果如下: 从上面的结果可以看出,混合性别音频的分离效果优于同性音频,BLSTM 的性能优于 LSTM。 2. 评价标准 SDR:信号失真比 SAR:信号与伪像的比率 SIR:信号干扰比 STOI:短期客观可懂度测量 ESTOI:扩展的短期目标可懂度测量 PESQ:语音质量的感知评估 3. 依赖库 matlab(我的测试版:R2016b 64位) tensorflow(我的测试版本:1.4.0) anac
2022-12-21 11:33:49
5.37MB
系统开源
1
A Speaker-Independent Audio-Visual Model for Speech Separation(中文)
A Speaker-Independent Audio-Visual Model for Speech Separation(高质量翻译By翻译狗),详细解析音频分离的实现方式
2022-06-04 14:07:02
13.07MB
音频分离
1
uPIT-for-
speech-separation
:语音级别的PIT实验进行语音分离-源码
使用uPIT进行语音分离 使用发声级PIT(置换不变训练)进行语音分离 要求 参见 用法 使用生成数据集 准备cmvn,.scp并在.yaml文件中配置实验 训练: ./run_pit.py --config $conf --num-epoches 100 > $checkpoint /train.log 2>&1 & 推理: ./separate.py --dump-dir cache $mdl_dir/train.yaml $mdl_dir/epoch.40.pkl egs.scp 实验 配置 面具 时代 调频 FF 毫米 FF /毫米 AVG AM-ReLU 75 10.41 6.73 7.35 7.19 8.82 sigmod 50 9.95 5.99 6.72 6.35 8.26 PSM-ReLU 73 10.29 6.54 7.28
2021-12-22 17:16:35
23KB
pytorch
pit
speech-separation
Python
1
Speech-Separation
-Paper-Tutorial:基于神经网络的语音分离必读论文-源码
基于神经网络的语音分离必读论文和教程列表 该存储库包含用于纯语音分离和多模式语音分离的论文。 通过Kai Li(如果有任何建议,请与我联系!电子邮件: )。 提示:对于语音分离初学者,我建议您阅读“深度群集”和“ PIT&uPIT”作品,这将有助于理解问题。 如果您发现以下某些文章的代码,欢迎添加链接。 纯语音分离 :check_mark: [用于单声道信号源分离的蒙版和深度递归神经网络的联合优化,黄波森,TASLP 2015] :check_mark: [用于单声道语音分离的复杂比率掩盖,DS Williamson,TASLP,2015年] :check_mark: [深度聚类:用于分段和分离的区分嵌入,JR Hershey,ICASSP 2016] :check_mark: [使用深度聚类的单通道多扬声器分离,Y Isik,Interspeech 2016] :check_mark: [用于与说话者无关的多说话者语音分离的深度模型的置换
2021-12-09 22:46:41
4KB
paper
speech-separation
speech-enhancement
voice-separation
1
deep-clustering:单通道语音分离的深度聚类方法-源码
用于单通道语音分离的深度聚类 “用于分割和分离的深度聚类判别嵌入”的实现 要求 参见 用法 在.yaml文件中配置实验,例如: train.yaml 训练: python ./train_dcnet.py --config conf/train.yaml --num-epoches 20 > train.log 2>&1 & 推理: python ./separate.py --num-spks 2 $mdl_dir/train.yaml $mdl_dir/final.pkl egs.scp 实验 配置 时代 调频 FF 毫米 FF /毫米 AVG 25 11.42 6.85 7.88 7.36 9.54 问与答 .scp文件的格式? wav.scp文件的格式遵循kaldi工具箱中的定义。 每行包含一个key value对,其中key是索引音频文件的唯一字符串,而值
2021-11-27 21:56:29
16KB
pytorch
speech-separation
Python
1
blind-
speech-separation
说明: 完成欠定盲语音分离,源信号为3路输入,有2路麦克风,用c实现。 (Underdetermined blind speech separation is completed, the source signal is 3 inputs, 2 mic, with c achieve.)
2021-09-27 09:05:32
3.61MB
盲源分离C++
blind
欠定信号
blindspeech
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
matlab时频分析工具箱+安装方法+函数说明+最新版tftb.
《应用非线性控制》(美)斯洛坦著;程代展译(清晰)
现代操作系统原理与实现.pdf
多智能体的编队控制程序的补充(之前上传少了一个文件)
故障诊断数据集及实现代码
Landsat 8地表温度反演免费软件(北京大学遥感所任华忠研究员团队)
python实现的学生信息管理系统—GUI界面版
基于javaweb的网上购物系统(毕业论文+答辩PPT+开题报告+源代码)
PLECS中文手册.pdf
cplex_studio129.win-x86-64.exe CPLEX 12.9直接安装可使用
simulink仿真实现光伏发电MPPT+能量管理
IEEE 39节点系统的Simulink模型
Matpower中文使用手册(原名《MATPOWER手册(中文版)》).rar
基于YOLOV5的车牌定位和识别源码.zip
Android小项目——新闻APP(源码)
最新下载
ultralytics / yolov5,官方预训练权重yolov5x.pt
植物叶片病害数据集 含4500多张
IAR FOR 8051 V8.10.zip
遗传算法原理及其应用.rar
华为2022逻辑机考+华为_2020数字IC笔试题.rar
Arm Compiler 5.06编译器
20Hz到20KHZ 0db测试用音频文件
c-dilla3.27
启天M7150 2012最新主板BIOS(含中文刷新工具)支持win7 64位
kinect2 unity包
其他资源
福克斯刷机软件福克斯刷机软件 UCDS
数字电路课程实验设计 设计一个数字秒表
LDA算法原理详解及代码,另附LDA数学八卦高清PDF版笔记整理
多分类问题中混淆矩阵(Confusion Matrix)的Matlab画法
Introduction to solid state physics 8th习题详解.pdf
长图片切割,A4纸,可微调
Discuz论坛自动回帖软件
C# 仿CAD矢量绘图源码
【原创】定时打开指定程序的小工具
Java解析bt torrent种子文件的工具类代码分享
RapidCFD-simpleFoam-rundemo.zip
Java研发军团整理《Java面试题手册》V1.0版(1).pdf.zip
coreui-react:CoreUI React.js UI组件。 用于React.js的CoreUI替换并扩展了Bootstrap javascript。 组件是从零开始构建的,作为真正的React.js钩子组件,没有jQuery和不需要的依赖项-源码
PM3官方windows GUI客户端软件
just_painter3.rar
C#图书管理系统-----
简单的文本编译器
mfc聊天程序,利用TCP/IP完成双向数据收发
超市账单管理系统源码
利用C#语言开发的一款DNF辅助,提供源码供学习参考。
数字图像处理国际标准图
AUTODOCK软件,最早的对接软件