下载概念字幕数据
将来自以下位置的数据放在以下文件夹中: :
Train_GCC-training.tsv训练分组(3,318,333)
Validation_GCC-1.1.0-Validation.tsv验证拆分(15,840)
测试分割(〜12,500)个人认可的图像标题对不公开。
运行download_data.py
图像将位于training和validation文件夹中。 您可以停止然后继续,将下载分为多个块/线程的设置不是最佳的,但是它使我的连接最大,因此我将它们保持原样。
注意:此脚本的先前版本使用了不同的文件命名方案,但此更改已更改,如果您要恢复先前开始的下载,则会得到重复的文件。
其中许多将无法下载,而是返回网页。 这些将需要稍后清理。 downloaded_validation_report.tsv后,请查看downloaded_validation
1