音乐流派分类
使用1D和2D卷积神经网络比较使用频谱图输入和原始音频输入的音乐流派分类。 在此实验中,仅使用每个音频的前20秒。 每个音频样本被分为2秒音频的10个部分。
先决条件
- Python 2
- Numpy
- Matplotlib
- Scikit-learn
- Scikit-plot
- Keras
- Tensorflow
- Kapre
- Librosa
- ffmpeg
数据集
乔治·扎纳塔基斯(George Tzanetakis)设定的音乐流派数据。 数据集包含1000个音轨,每个音轨长30秒。 它包含10个流派,每个流派由100首曲目代表。
结果(10个纪元)
混淆矩阵
ROC曲线
测试精度
带一维CNN的原始音频输入
0.31
一维CNN的频谱图输入
0.7372
二维CNN的频谱图输入
0.686
参考:
Dieleman,Sander和B
1