使用UNET增强语音
塞萨洛尼基亚里斯多德大学-电气和计算机工程
课程:音频和视频技术
作者: , , ,
该存储库包含音频和视频技术课程的作业。
目的是要了解深度学习的分支并将其应用于人类语音的去噪问题。
数据集
使用的数据集是 (Microsoft可缩放的嘈杂语音数据库)。
借助其提供的功能,并在选择了特定类型的噪声之后,将它们与各种SNR比率(0 dB,5 dB,10 dB,15 dB,20 dB)的清晰语音信号混合,从而总共得到4种噪声。小时的训练集和30分钟的测试集已创建。 可以在s01_CreateWAVs.py文件中找到此过程。
在Dataset_MS_SNSD和Dataset_My_Wavs文件夹中,有一些屏幕截图,显示了如何将音频文件放置在原始和最终集中。
网络
可以在s03_InitializeModel.py文件中找到使用的模型,并可以在下图中看到它:
请注意
2022-05-17 04:41:59
139.29MB
Python
1