数据集8732标记了以下10类城市声音的声音摘录(<= 4s):空调,car_horn,儿童游戏,dog_bark,钻探,引擎怠速,gun_shot,手提凿岩机,警笛声和street_music。
使用称为开源库完成特征提取。 Librosa允许您加载声音文件,提取特征,生成波形图等。 我们将研究标准的多感知器模型以及卷积网络和递归网络。 这是使用完成的,它提供了高级神经网络API。
我想在将来尝试使用的一种模型是时间卷积网络(TCN),它基于对。 TCN的最重要组成部分是因果卷积。 “因果”仅表示在时间步t处的过滤器只能看到不迟于t的输入。 使用膨胀卷积的目的是用更少的参数和更少的层来获得更大的接收场。 TCN还使用残差块,将两个膨胀的卷积层堆叠在一起,并将最终卷积的结果加回到输入中以获得块的输出。
要求:
librosa == 0.6.0 熊猫== 0.20.3 凯拉斯== 2.
1