上传者: 42128676
|
上传时间: 2021-12-06 15:43:30
|
文件大小: 29KB
|
文件类型: -
视觉问答
该实现遵循“图像字幕和视觉问题解答的自下而上和自上而下注意”( )和“视觉问题解答的提示和技巧:从中学到的知识”中描述的VQA系统2017年挑战”( )。
结果
模型
验证准确性
训练时间
实施模型(CNN扩展+ BCP)
64.2
40至50分钟(Titan Xp)
使用计算准确性。
实施细节
我们的实现遵循论文的总体结构,但有以下简化:
我们不使用额外数据。
每个图像我们仅使用固定数量的对象(K = 36)。
我们使用一个简单的单流分类器而不进行预训练。
我们使用简单的ReLU激活而不是封闭的tanh。
前两点大大减少了培训时间。 在单个Titan Xp上,我们的实现每个周期大约需要200秒,而本文中描述的实现每个周期需要1个小时。
第三点是因为我们认为原始文档中的两个流分类器和预训练过于复杂,因此没有必要。
对于非线性激活单元,我们尝试了门tanh,