使用 CNN-MLP 的音频分类 使用深度学习(CNN、MLP)的多类音频分类 引文 如果你觉得这个项目有帮助,请引用如下: @software{vishal_sharma_2020_3988690, author = {Vishal Sharma}, title = {{vishalshar/Audio-Classification-using-CNN-MLP: first release}}, month = Aug, year = 2020, publisher = {Zenodo}, version = {v1.0.0}, doi = {10.5281/zenodo.3988690}, url = {
2023-04-04 19:11:34 2.43MB audio classifier cnn audio-analysis
1
音频分类使用深度学习 使用深度学习对10种不同的城市声音进行分类。 可以从以下链接下载音频文件: : 重要说明:文件夹应按以下方式排列: 火车标签目录:sounds / labels / train.csv 测试标签的目录:sounds / labels / test.csv 火车声音的目录:sounds / train / train_sound /(。wav格式的音频文件) 火车声音的目录:sounds / test / test_sound /(。wav格式的音频文件) 火车文件夹贴有标签 测试文件夹未标记 我们将一个音频信号分成3个,以将数据实际加载为机器可理解的格式。 为此,我们只需要在每个特定的时间步长之后取值即可。 例如; 在2秒的音频文件中,我们将在半秒内提取值。 这称为音频数据采样,而对其采样的速率称为采样速率。 现在可以将不同的纯信号表示为频域中的三个唯
1
介绍 该数据集包含来自10个类别的城市声音的8732个标记的声音摘录(<= 4s):空调,汽车喇叭,儿童玩耍,狗吠,钻探,enginge_idling,gun_shot,手提钻,警笛和street_music。 这些类别是根据城市声音分类法得出的。 有关数据集及其编译方式的详细说明,请参阅我们的论文。 所有摘录均取自上传到现场录音。 这些文件已预先排序为十折(名为fold1-fold10的文件夹),以帮助复制和比较上面文章中报告的自动分类结果。 除声音摘录外,还提供了一个CSV文件,其中包含有关每个摘录的元数据。 数据集链接-https: 方法 1.有3种基本方法可以从音频文件中提取特征:a)使用音频文件的mffcs数据b)使用音频的频谱图图像,然后将其转换为数据点(就像对图像所做的那样)。 使用Librosa的mel_spectogram函数可以轻松完成此操作。c)结合两个功能以构建
2021-11-02 15:14:51 387KB JupyterNotebook
1
重新思考音频分类的CNN模型 该存储库包含我们的论文《的PyTorch代码。 在以下三个数据集上进行了实验,这些数据集可以从提供的链接中下载: 前处理 预处理是单独进行的,以节省模型训练期间的时间。 对于ESC-50: python preprocessing/preprocessingESC.py --csv_file /path/to/file.csv --data_dir /path/to/audio_data/ --store_dir /path/to/store_spectrograms/ --sampling_rate 44100 对于UrbanSound8K: python preprocessing/preprocessingUSC.py --csv_file /path/to/csv_file/ --data_dir /path/to/audio_data/ --
2021-10-26 09:21:02 13KB Python
1
DCASE 2019-任务5-城市声音标记 该存储库包含我用于的最终解决方案。 该模型在粗略和精细级别标签的预测中均排名第一。 再现结果 先决条件: 基于Linux的系统 Python> = 3.5 拥有至少8GB内存的NVidia GFX卡 CUDA> = 10.0 已安装virtualenv软件包 复制: 克隆此存储库。 要使用单个命令复制整个解决方案,请在存储库目录中时执行make run_all命令。 该命令按顺序执行以下步骤: make env :在当前目录中创建虚拟环境 make reqs :安装python软件包 make pytorch :安装PyTorch make download :从Zenodo下载Task 5的数据 make extract :提取压缩文件 make parse :解析注释 make logmel :计算并保存所有文件的Log-Mel频
1
语音分类源码,tensorflow2.0 python3.7使用 ,语音分类必备程序
2021-07-15 12:01:27 36.91MB tensorflow 语音分类
1