变形金刚
对VQA任务进行下行趋势化的预训练V + L模型的实现。
现在支持:Linux和上的VisualBERT,LXMERT和 。
笔记:
这只是一个测试版,如果遇到任何错误,请随时提出问题。
我们的实现基于的大型。
如果您采用V + L模型的预训练权重,请考虑引用其原始工作。
如果您发现我们的实施有帮助,请考虑引用以下内容:)
@inproceedings{li2020comparison,
title={A comparison of pre-trained vision-and-language models for multimodal representation learning across medical images and reports},
author={Li, Yikuan and Wang, Hanyin and Luo, Yuan},
2021-10-27 20:02:52
1.91MB
Python
1