比较详细的介绍了深度学习中RNN 的原理及应用
2022-03-06 12:24:35 9.47MB RNN 语音分离 DeepLearning
1
基于深度神经网络的统一的基于说话者的语音分离与增强系统
2022-01-24 17:59:51 2.73MB 研究论文
1
软阈值matlab代码用于语音分离的深度递归非负矩阵分解(DR-NMF)的实现 DR-NMF是一个递归神经网络,它是由应用于稀疏NMF推理的迭代软阈值算法(ISTA)的展开迭代构建而成的。 稀疏NMF推论是在给定非负字典W的情况下推论非负稀疏系数H的任务,使得WH逼近非负观察矩阵X。对于语音分离,观察矩阵X是有声音频的原始频谱图,并且对字典W进行分区变成语音和噪声成分。 字典W的这种划分允许在STFT域中计算增强掩码。 在这里阅读论文: 指示: 使用,可以从中获得。 设置环境(更新05-03-19)。 此代码取决于某些较旧版本的软件包(请参阅。要设置conda环境,请运行以下命令: conda create --name drnmf_orig3 cudnn=5.1 gxx_linux-64=5.4.0 python=2.7 theano=0.9.0 numpy=1.11 pygpu=0.6.9 pip install keras==2.0.4 librosa==0.5.1 joblib==0.11.0 hickle jupyter 通过运行下载所需的工具箱。 通过用本地CHiME2路径
2022-01-13 20:33:53 315KB 系统开源
1
使用uPIT进行语音分离 使用发声级PIT(置换不变训练)进行语音分离 要求 参见 用法 使用生成数据集 准备cmvn,.scp并在.yaml文件中配置实验 训练: ./run_pit.py --config $conf --num-epoches 100 > $checkpoint /train.log 2>&1 & 推理: ./separate.py --dump-dir cache $mdl_dir/train.yaml $mdl_dir/epoch.40.pkl egs.scp 实验 配置 面具 时代 调频 FF 毫米 FF /毫米 AVG AM-ReLU 75 10.41 6.73 7.35 7.19 8.82 sigmod 50 9.95 5.99 6.72 6.35 8.26 PSM-ReLU 73 10.29 6.54 7.28
2021-12-22 17:16:35 23KB pytorch pit speech-separation Python
1
基于神经网络的语音分离必读论文和教程列表 该存储库包含用于纯语音分离和多模式语音分离的论文。 通过Kai Li(如果有任何建议,请与我联系!电子邮件: )。 提示:对于语音分离初学者,我建议您阅读“深度群集”和“ PIT&uPIT”作品,这将有助于理解问题。 如果您发现以下某些文章的代码,欢迎添加链接。 纯语音分离 :check_mark: [用于单声道信号源分离的蒙版和深度递归神经网络的联合优化,黄波森,TASLP 2015] :check_mark: [用于单声道语音分离的复杂比率掩盖,DS Williamson,TASLP,2015年] :check_mark: [深度聚类:用于分段和分离的区分嵌入,JR Hershey,ICASSP 2016] :check_mark: [使用深度聚类的单通道多扬声器分离,Y Isik,Interspeech 2016] :check_mark: [用于与说话者无关的多说话者语音分离的深度模型的置换
1
用于单通道语音分离的深度聚类 “用于分割和分离的深度聚类判别嵌入”的实现 要求 参见 用法 在.yaml文件中配置实验,例如: train.yaml 训练: python ./train_dcnet.py --config conf/train.yaml --num-epoches 20 > train.log 2>&1 & 推理: python ./separate.py --num-spks 2 $mdl_dir/train.yaml $mdl_dir/final.pkl egs.scp 实验 配置 时代 调频 FF 毫米 FF /毫米 AVG 25 11.42 6.85 7.88 7.36 9.54 问与答 .scp文件的格式? wav.scp文件的格式遵循kaldi工具箱中的定义。 每行包含一个key value对,其中key是索引音频文件的唯一字符串,而值
2021-11-27 21:56:29 16KB pytorch speech-separation Python
1
DaNet-Tensorflow Tensorflow实现“深度吸引者网络的与扬声器无关的语音分离” 到原始论文 2021注:我不是论文的原作者。 这段代码可以运行,但是学习得不好。 我没有时间来做这个。 如果您设法使模型正常工作,请告诉我。 仍在进行中,预期会出现问题 要求 numpy / scipy 张量流> = 1.2 matplotlib(可选,用于可视化) h5py /(可选,对于某些数据集) 用法 准备数据集 当前,已实现TIMIT和WSJ0数据集。 您可以使用“玩具”数据集进行调试。 只是一些白噪声。 TIMIT数据集 按照app/datasets/TIMIT/readme进行数据集准备。 WSJ0数据集 遵循app/datasets/WSJ0/readme进行数据集准备。 设置数据集后,您可能需要更改DATASET_TYPE参数中的DATASET_TYPE
2021-10-14 17:34:13 35KB Python
1
通过深度学习进行语音分离和提取 此仓库总结了用于语音分离和说话人提取任务的教程,数据集,论文,代码和工具。诚挚地邀请您提出要求。 目录 讲解 [语音分离,李鸿-,2020年] [端到端神经源分离的进展,伊洛,2020] [音频源分离和语音增强,伊曼纽尔·文森特,2018年] [音频源分离,牧野昌司,2018年] [概述论文] 【概述幻灯片] [手册] 数据集 [数据集介绍] [WSJ0] [WSJ0-2mix] [WSJ0-2mix-extr] [WHAM&WHAMR] [LibriMix] [LibriCSS] [SparseLibriMix] [VCTK-2Mix] [CHIME5和CHIME6挑战赛] [音频 [Microsoft DNS挑战] [AVSpeech] [LRW]
1
基于深度学习语音分离技术的研究现状与进展.pdf
2021-08-31 18:03:37 1.76MB 互联网 资料