使用DNN进行语音分离的卷积NMF联合优化激活系数
2024-03-30 13:13:43 450KB 研究论文
1
lpc matlab代码 用于多通道卷积语音/音乐分离的语音密度估计。 我使用独立向量分析(IVA)作为分离框架。 请检查报告以获取详细信息。 请使用来重现报告的结果。 我重写了代码以使其更有条理和有用。 与流行的端到端监督语音分离方法不同,此处的目标是学习用于无监督分离的神经网络密度模型。 所得的密度模型可用于例如在线或批量分离,不同数量来源的分离,人工或实际混合物的分离,而无需重新训练任何不同的特定监督分离模型。 关于Pytorch培训代码 Artificial_mixture_generator.py:实际混合矩阵为inv(a_FIR_system)*(another_FIR_system),因为我们不断更改混合矩阵,并且自然梯度下降对组合的分离混合矩阵起作用。 dnn_source_priors.py:定义了简单的圆形和非圆形源模型。 如果还想恢复每个仓的相位,则必须使用非圆形模型。 恢复相位(直到某些全局旋转歧义)是不平凡的,因为这将使语音反卷积/去杂音化。 这是通过迫使使用估计相位的重构语音也与原始源保持一致来实现的。 尽管如此,轻量级的无记忆圆形模型在大多数情况下似乎已经
2023-04-21 19:42:53 593KB 系统开源
1
受声学研究启发,结合人脑人耳听觉特性对语音的处理方式,建立了一个完整的模拟听觉中枢系统的语音分离模型.首先利用外周听觉模型对语音信号进行多频谱分析,然后建立重合神经元模型提取语音信号的特征,最后在脑下丘的神经细胞模型中完成对语音的分离.基于现有的语音识别方法,该模型能够很好地解决绝大多数的语音识别方法都只能在单声源和低噪声的环境下使用的问题.实验结果表明,该模型能够实现多声源环境下语音的分离并且具有较高的鲁棒性.随着研究的深人,基于人耳听觉特性的语音分离模型将有很广泛的应用前景.
2023-04-15 16:11:31 529KB 工程技术 论文
1
PyTorch + Catalyst实现的“ 。 该存储库处理培训过程。 为了进行推断,请检出GUI包装器:PyQT中的 。 该储存库已与合并为。 目录 要求 计算方式 我们在1050 Mobile和Tesla V100的两个GPU上运行了该程序。 我们没有进行任何基准测试,但是V100的速度大约提高了400倍。 它还取决于您下载的数据量。 因此,任何服务器级GPU都是可行的。 贮存 该程序确实会生成很多文件(下载和其他方式)。 每个音频文件的大小为96kiB。 对于7k独特的音频剪辑,并以70/30的比例进行火车和验证拆分,它占用了约120GiB的存储空间。 因此,如果您下载更多音频片段,则至少为1TB 。 记忆 至少需要4GB VRAM 。 它可以处理2个批处理大小。在20个批处理大小下,在两个GPU上,每个GPU占用16GiB VRAM。 设置 如果您使用的是Docker,则
1
提取均值信号特征的matlab代码两个扬声器的基于 LSTM/BLSTM 的 PIT 在多通话者混合语音分离和识别方面取得的进展,通常被称为“鸡尾酒会问题”,并没有那么令人印象深刻。 尽管人类听众可以很容易地感知混合声音中的不同来源,但对于计算机来说,同样的任务似乎极其困难,尤其是当只有一个麦克风记录混合语音时。 1. 运行性能 注意:训练集和验证集包含通过从 WSJ0 集中随机选择说话者和话语生成的两个说话者混合,并以 -2.5 dB 和 2.5 dB 之间统一选择的各种信噪比 (SNR) 混合它们. 对于LSTM ,不同性别的混合音频结果如下: 对于BLSTM ,不同性别的混合音频结果如下: 从上面的结果可以看出,混合性别音频的分离效果优于同性音频,BLSTM 的性能优于 LSTM。 2. 评价标准 SDR:信号失真比 SAR:信号与伪像的比率 SIR:信号干扰比 STOI:短期客观可懂度测量 ESTOI:扩展的短期目标可懂度测量 PESQ:语音质量的感知评估 3. 依赖库 matlab(我的测试版:R2016b 64位) tensorflow(我的测试版本:1.4.0) anac
2022-12-21 11:33:49 5.37MB 系统开源
1
第十六届全国人机语音通讯学术会议 2021年10月15-18日 江苏徐州
1
人工智能-层叠与深度神经网络研究及其在语音分离中的应用.pdf
语音分离】基于PCA+ICA语音信号采集+混合+分离含Matlab源码
2022-05-07 22:11:57 511KB
1
基于计算听觉场景分析(Computational Auditory Scene Analysis,CASA)的语音分离系统通过模拟人耳的听觉感知系统对混合信号进行处理并分离出感兴趣的目标语音,近年来得到了很大的发展。如何在干扰噪声存在的情况下进行正确的基音提取跟踪一直是CASA系统研究的重点。提出了一种基于目标语音源的改进基音跟踪算法。该算法通过对目标源估计和基音检测两个步骤的反复迭代计算,得到最终的基音轨迹。通过在不同噪声干扰条件下与传统基音跟踪算法对比的实验结果证明,该算法能够有效地抑制噪声,提高输出
2022-05-07 18:21:27 1.13MB 工程技术 论文
1