GVQA
以下论文中的“地面视觉问答”(GVQA)模型的代码:
艾西瓦娅·阿格劳瓦尔(Aishwarya Agrawal),德鲁·巴特拉(Dhruv Batra),德维·帕里克(Devi Parikh),阿尼鲁达(Aniruddha Kembhavi) 2018年IEEE计算机视觉和模式识别会议(CVPR)
推断码
GVQA模型包含以下模块:
问题分类器
视觉概念分类器(VCC)
答案簇预测器(ACP)
概念提取器(CE)
答案预测器(AP)
视觉验证器(VV)
为了对GVQA进行推断,我们需要按顺序对上述每个模块进行推断,以便将来自一个模块的预测用作以下模块的输入功能。
因此,首先我们在问题分类器上进行如下推断:
th eval_question_classifier.lua
然后,我们在VCC模块上运行推断,如下所示:
th eval_vcc.lua
然后
2025-08-12 14:34:18
22KB
Lua
1