视觉问题回答项目,具有最先进的单一模型性能
2023-03-14 13:29:18 1.63MB Python开发-机器学习
1
屈亚迪基于VGG和LSTM网络的视觉问答系统研究与应用.docx
2022-12-06 19:19:42 1.34MB 计算机
视觉问答 该实现遵循“图像字幕和视觉问题解答的自下而上和自上而下注意”( )和“视觉问题解答的提示和技巧:从中学到的知识”中描述的VQA系统2017年挑战”( )。 结果 模型 验证准确性 训练时间 实施模型(CNN扩展+ BCP) 64.2 40至50分钟(Titan Xp) 使用计算准确性。 实施细节 我们的实现遵循论文的总体结构,但有以下简化: 我们不使用额外数据。 每个图像我们仅使用固定数量的对象(K = 36)。 我们使用一个简单的单流分类器而不进行预训练。 我们使用简单的ReLU激活而不是封闭的tanh。 前两点大大减少了培训时间。 在单个Titan Xp上,我们的实现每个周期大约需要200秒,而本文中描述的实现每个周期需要1个小时。 第三点是因为我们认为原始文档中的两个流分类器和预训练过于复杂,因此没有必要。 对于非线性激活单元,我们尝试了门tanh,
2021-12-06 15:43:30 29KB JupyterNotebook
1
医学视觉问答(VQA)是医学人工智能和流行的VQA挑战的结合。用自然语言给出医学图像和临床相关问题,期望医学VQA系统能够给出一个可信的、令人信服的答案。虽然一般领域的VQA已经得到了广泛的研究,但医学VQA由于其任务特点,还需要具体的研究和探索。
2021-12-02 09:11:26 6.34MB 医学视觉问答
1
基于Tensorflow的视觉问答系统VQA
2021-11-01 12:30:49 13KB Python开发-机器学习
1
Deep Modular Co-Attention Networks for Visual Question Answering
2021-07-27 08:50:21 320KB Python开发-机器学习
1
视觉问答综述,文章中给出了模型的代码,讨论了未来研究热点 New Research Opportunities
2021-07-07 16:48:23 1.69MB 机器学习 视觉问答
1
视觉问答中所有语言先验,偏见的论文,代码,ppt
2021-04-05 17:10:46 131.9MB 视觉问答
1
很棒的VQA 阅读有关视觉问题解答的论文清单。 目录 图像质量检查论文 数据集 DAQUAR [2014] [NIPS]一种基于不确定输入的多场景现实场景问题解答方法。[ ] [ ] [] DAQUAR共识[2015年] [ICCV]问你-基于神经神经元的方法来回答问题的有关图片。[ ] [ ] [] 视觉Madlibs [2015年] [ICCV]在空白说明生成和答疑视觉Madlibs填充。[ ] [] [] VQA V1.0 [2015年] [ICCV] VQA,视觉答疑。[ ] [] [] FM-IQA [2015年] [NIPS]你说一台机器数据集和方法多语言映像答疑。[] [] [] SHAPES [2016] [CVPR]神经模块网络。[ ] [] [] Visual7W [2016年] [CVPR] Visual7W:接地问答系统中的图像[ ] [] []
2021-03-17 16:21:39 474KB
1
VQA 视觉问答 运行代码 该模型基于在运行代码之前,请从下载相关的训练,验证和测试数据。下面的部分根据需要Resnet-18或CNN的结果告诉您要运行哪些脚本 有线电视新闻网 我们按照以下顺序运行脚本以获得最佳结果 image_preprocessing_CNN.py 这将从图像中提取特征 preprocess-QA.py 这从提出的问题中提取特征 train_models_cnn.py 这使用L2正则化训练了50个时期的模型0.0005 view-logs.py logs/ 打印出结果 ResNet-18 我们按照以下顺序运行脚本以获得最佳结果 image_preprocessing_resnet18.py 这将从图像中提取特征 preprocess-QA.py 这从提出的问题中提取特征 train_models.py 这使用L2正则化0.001训练了50个时
2021-03-10 15:46:37 1.78MB Python
1