Multi30k数据存储库
做好准备
除了数据文件,我们还提供:
subword-nmt作为GIT子模块
Moses预处理脚本的最新快照(2017年12月)
在,以最大程度地减少用户之间的处理差异。
为了正确获取所有内容,您需要使用--recursive标志克隆存储库:
$ git clone --recursive https://github.com/multi30k/dataset.git multi30k-dataset
视觉特征
可以预先提取的视觉功能,也可以在Flickr30k的原始图像。 可以从 下载test_2017_flickr和test_2018_flickr图像。
任务1
下的原始文件
在下的标记文件。 这些文件是使用预处理脚本。
Multi30K 2018测试仪
您可以使用正在进行的竞赛在2018年测试集上评估模型。
统计数据
train
(en) 29
1