不受约束的视频中的视听事件本地化(出现在ECCV 2018中)
AVE数据集和功能
可以从下载AVE数据集。
和(7.7GB)也已发布。 在运行代码之前,请先将AVE数据集的视频放入/ data / AVE文件夹,将功能放入/ data文件夹。
用于生成音频和视频功能的脚本: ://drive.google.com/file/d/1TJL3cIpZsPHGVAdMgyr43u_vlsxcghKY/view?usp=sharing(可以随意修改并使用它来处理音频和视频数据)。
要求
Python-3.6,Pytorch-0.3.0,Keras,ffmpeg。
可视化注意力图
运行:pythontention_visualization.py生成音频引导的视觉注意图。
有监督的视听事件本地化
测试:
本文中的A + V-att模型:python supervised_main.py -
1