城市声音分类
日期
机器学习和AI ID技术营地的最终项目。
高层概述
有8732个.wav文件,其中包含10种不同的城市声音,例如狗叫声,汽车喇叭声,枪声等。数据集分为10折(文件夹),以使训练和测试变得更加容易。 我使用1-9倍训练模型,然后使用10折测试模型。 自定义CNN用于对声音进行分类。
CNN中使用的声音功能包括:
MFCC:使用准对数间隔频率标度的梅尔频率倒谱系数,与人类听觉系统处理声音的方式更相似。
质谱图:计算梅尔级功率谱图。 基于人耳。
chroma-stft:从波形或功率谱图中计算色谱图。 使用音高。
chroma_cq:恒定Q色谱图。 使用音高。
chroma_cens:色度能量标准化CENS。 使用音高。
科技栈
的Python 3
凯拉斯
大熊猫
天秤座
结果
测试精度:70%
验证准确性:90%
反射
从以上结果可以看出,该模型显然是过拟合的
2021-04-05 12:05:55
7KB
Python
1