使用师生模型进行人声旋律提取的半监督学习
ISMIR(2020)| “使用师生模型进行人声旋律提取的半监督学习”的源代码|
抽象的
缺少标记数据是许多音乐信息检索任务(例如旋律提取)中的主要障碍,在这些任务中,标记非常费力或成本高昂。 半监督学习(SSL)提供了一种通过利用大量未标记数据来缓解此问题的解决方案。 在本文中,我们提出了一种使用师生模型进行人声旋律提取的SSL方法。 教师模型经过预先标记的数据训练,并指导学生模型在自训练设置中在未标记输入的情况下做出相同的预测。 我们研究了具有不同数据增强方案和损失函数的三种师生模型设置。 此外,考虑到测试阶段标记数据的稀缺性,我们使用分析合成方法从未标记数据中人工生成带有音高标记的大规模测试数据。 结果表明,SSL方法仅针对有监督的学习即可显着提高性能,而这种改进取决于师生模型,未标记数据的大小,自训练迭代的次数以及其他训练细节。 我们还发现
2021-11-01 16:08:08
19.47MB
Python
1