图像字幕
PyTorch中图像字幕模型的实现,支持不同类型的注意力机制。 目前仅提供经过预训练的ResNet152和VGG16,并具有批标准化功能作为编码器。
支持的型号: FC来自 Att2all来自 来自Att2in 来自空间关注来自自适应注意
通过capeval/评估字幕, capeval/是从衍生而来,细微的更改,以获得更好的Python 3支持
要求
MSCOCO原始数据集,请将它们放在同一目录中,例如COCO2014/ ,然后在COCO_ROOT中修改configs.py ,您可以在此处获取它们:
无需使用随机拆分, 需要,请将其放在COCO_PATH
具有GPU支持的PyTorch v0.3.1或更高版本。
TensorBoardX
用法
1.预处理
首先,我们应该预处理图像并将其存储在本地。 如果需要并行处理,则可以指定阶段。 所有经过预处理的图像都存储在COCO_R
2021-09-23 09:09:16
70.86MB
Python
1