在进行image captioning实验时,通常会使用COCO、Flickr8k和Flickr30k等数据集。这些数据集已经处理好了格式,因此我们可以直接使用它们。然而,当我们需要使用自定义的数据集来完成特定任务时,就需要将其转换为json格式的数据集。目前,关于这方面的代码资料相对较少。因此,本文作者花费了一些时间,从头编写了一个能够将自定义的image captioning数据集转换为COCO JSON格式的代码。
2024-04-29 20:51:16 402KB 数据集 json
1
概述 混合系统,使用多层卷积神经网络(CNN)提取图像中的特征,并使用长短期记忆(LSTM)来使用生成的关键字准确地构造有意义的句子 解码器将目标图像与大型数据集进行比较,并生成准确的描述。 使用标准评估矩阵(例如BLUE分数)评估提出的模型的性能。 数据源 使用Flickr 8K图像字幕数据集 在Flickr8k数据集中,每个图像都与描述实体和事件的五个不同标题相关联 建筑学 技术方法 为了对文本序列进行编码,我们将每个单词映射到200维向量。 为此,将使用预训练的手套模型。 GloVe是一种无监督学习算法,用于获取单词的矢量表示 对来自语料库的汇总全局单词-单词共现统计信息进行训练,并且所得表示形式展示了单词向量空间的有趣线性子结构。 使用波束搜索算法和贪婪搜索算法预测输出 使用Tenserboard进行单词矢量化 结果 未来范围 使用基于注意力的模型可以改善结果
2022-09-21 16:43:27 2.51MB JupyterNotebook
1
图像字幕火炬 使用Inception_V3作为主干图像字幕的简单尝试。 基于Pytorch,无需关注(可能会在以后更新)
2022-04-15 15:18:12 780KB Python
1
图片字幕 介绍 该项目是论文。 它可能并不完全相似。 使用Pytorch作为代码。 ResNet101用于提取功能。 您可以检查预训练的模型。 使用2017 Val图像[5K / 1GB],注释[241MB]。 请检查make_vocab.py和data_loader.py。 Vocab.pickle是一个pickle文件,其中包含注释中的所有单词。 coco_ids.npy存储要使用的图像ID。 另外,您必须设置路径或其他设置。 执行prerocess_idx函数。 您可以运行源代码并尝试自己的示例。 环境 的Python 3.8.5 火炬1.7.1 CUDA 11.0 如何使用 火车 cd src python train.py 进行测试 cd src python sample.py 结果 时代100 说明文字:一名妇女在手提箱中手持一只泰迪熊 待办事项清单 张量
2022-03-27 15:27:54 95KB Python
1
关于自动生成医学影像报告 On the Automatic Generation of Medical Imaging Reports一个pytorch实现。 有关该文件的详细信息,请参见 。 表现 从模型only_training / only_training / 20180528-02:44:52 / 模式 BLEU-1 BLEU-2 BLEU-3 BLEU-4 流星 胭脂 苹果酒 火车 0.386 0.275 0.215 0.176 0.187 0.369 1.075 值 0.303 0.182 0.118 0.077 0.143 0.256 0.214 测试 0.316 0.190 0.123 0.081 0.148 0.264 0.221 纸 0.517 0.386 0.306 0.247 0.217 0.447
2021-12-21 10:08:45 71.48MB pytorch image-captioning medical-report Python
1
注意图像字幕注意 该存储库包括“的实现。 要求 Python 3.6 Java 1.8.0 PyTorch 1.0 苹果酒(已经添加为子模块) coco-caption(已经添加为子模块) 张量板 培训AoANet 准备数据 请参阅data/README.md详细信息。 (注释:设置word_count_threshold在scripts/prepro_labels.py至4,以产生大小10369的词汇表。) 您还应该预处理数据集并获取缓存以计算苹果酒得分: $ python scripts/prepro_ngrams.py --input_json data/dataset_coco.json --dict_json data/cocotalk.json --output_pkl data/coco-train --split train 开始训练 $ CUDA_VISIB
1
奥斯卡:针对视觉和语言任务的对象语义对齐预训练 VinVL:重新研究视觉语言模型中的视觉表示 更新 月28日:已发布有关下游任务的模型,请检查 。 2020年5月15日:发布了用于下游任务微调的预训练模型,数据集和代码。 01/13/2021:我们的新工作提出了OSCAR +,这是OSCAR的改进版本,并提供了更好的对象属性检测模型来提取V + L任务的特征。 VinVL的工作在这里的所有七个V + L任务中都达到了SOTA性能。请继续关注模型和代码发布。 20年3月8日:发布了Oscar +预培训代码,请检查的最后一部分。 VinVL中的所有图像功能和模型检查点也已发布。请检查以获取详细信息。 介绍 该存储库包含重现《提出的结果所必需的源代码。我们提出了一种新的交叉模式预训练方法Oscar (对象语义对齐的预训练)。它利用在图像中检测到的对象标签作为锚点,从而大大简化了图像-文本对齐方
2021-10-30 15:27:20 724KB vqa image-captioning oscar vision-and-language
1
图像字幕 PyTorch中图像字幕模型的实现,支持不同类型的注意力机制。 目前仅提供经过预训练的ResNet152和VGG16,并具有批标准化功能作为编码器。 支持的型号: FC来自 Att2all来自 来自Att2in 来自空间关注来自自适应注意 通过capeval/评估字幕, capeval/是从衍生而来,细微的更改,以获得更好的Python 3支持 要求 MSCOCO原始数据集,请将它们放在同一目录中,例如COCO2014/ ,然后在COCO_ROOT中修改configs.py ,您可以在此处获取它们: 无需使用随机拆分, 需要,请将其放在COCO_PATH 具有GPU支持的PyTorch v0.3.1或更高版本。 TensorBoardX 用法 1.预处理 首先,我们应该预处理图像并将其存储在本地。 如果需要并行处理,则可以指定阶段。 所有经过预处理的图像都存储在COCO_R
2021-09-23 09:09:16 70.86MB Python
1
这是图像字幕的教程。 这是我正在编写的第一篇,是关于如何使用令人惊叹的PyTorch库自己实现酷模型的。 假定具备PyTorch,卷积和递归神经网络的基本知识。 如果您是PyTorch的新手,请先阅读PyTorch的和 。 问题,建议或更正可以作为问题发布。 我在Python 3.6使用PyTorch 0.4 。 2020年1月27日:添加了两个新教程的工作代码-和 内容 客观的 为了构建可以为图像生成描述性标题的模型,我们提供了它。 为了使事情简单,让我们实现“显示,出席和讲述”文件。 这绝不是当前的最新技术,但仍然相当惊人。 作者的原始实现可以在此处找到。 该模型学习在哪里看。 当您逐字生成标题时,可以看到模型的视线在图像上移动。 这是有可能的,因为它具有“注意”机制,该机制可以使其专注于图像中与下一个要说的单词最相关的部分。 以下是在训练或验证期间未看到的测试图
1
CA⫶TR :带有变压器的图像字幕 针对CATR的PyTorch培训代码和预训练模型( CA ption TR ansformer)。 也可以通过割炬轮毂使用这些模型,以简单地加载具有预训练砝码的模型: model = torch . hub . load ( 'saahiluppal/catr' , 'v3' , pretrained = True ) # you can choose between v1, v2 and v3 样品: 所有这些图像均已由CATR注释。 使用您自己的图像进行测试: $ python predict.py --path /path/to/image --v v2 // You can choose between v1, v2, v3 [default is v3] 或在colab中试用 用法 CATR中没有多余的已编译组件,并且程序包依赖
2021-09-05 21:26:26 3.01MB transformer image-captioning Python
1