SEWUNet
通过深波U-Net增强语音
在检查全文。
介绍
在本文中,我们提出了一种端到端的方法来从其原始波形上的语音信号中删除背景上下文。 网络的输入是音频,具有16kHz的采样率,并在5dB到15dB的信噪比内均匀分布地被附加噪声所破坏。 该系统旨在产生具有清晰语音内容的信号。 当前,有多种深度学习架构可用于此任务,从基于频谱的前端到原始波形,其结果令人鼓舞。 我们的方法基于Wave-U-Net体系结构,并对我们的问题进行了一些调整,在初始化主要任务的训练之前,建议通过自动编码器进行权重初始化。 我们表明,通过定量指标,我们的方法优于经典的维纳滤波。
如何使用
有两种使用此存储库的方式:1.使用数据训练自己的模型2.仅将技术应用于具有预先训练的模型的数据
如何训练
tl; dr:以与本文所示相同的方式训练最佳模型的步骤。
将LibriSpeech数据集和UrbanSound8K
1