图像字幕生成器:LSTM模型从预先训练的VGG-16模型中提取特征后,会为输入图像生成字幕。 (计算机视觉,自然语言处理,深度学习,Python)
1
图像字幕 PyTorch中图像字幕模型的实现,支持不同类型的注意力机制。 目前仅提供经过预训练的ResNet152和VGG16,并具有批标准化功能作为编码器。 支持的型号: FC来自 Att2all来自 来自Att2in 来自空间关注来自自适应注意 通过capeval/评估字幕, capeval/是从衍生而来,细微的更改,以获得更好的Python 3支持 要求 MSCOCO原始数据集,请将它们放在同一目录中,例如COCO2014/ ,然后在COCO_ROOT中修改configs.py ,您可以在此处获取它们: 无需使用随机拆分, 需要,请将其放在COCO_PATH 具有GPU支持的PyTorch v0.3.1或更高版本。 TensorBoardX 用法 1.预处理 首先,我们应该预处理图像并将其存储在本地。 如果需要并行处理,则可以指定阶段。 所有经过预处理的图像都存储在COCO_R
2021-09-23 09:09:16 70.86MB Python
1
这是图像字幕的教程。 这是我正在编写的第一篇,是关于如何使用令人惊叹的PyTorch库自己实现酷模型的。 假定具备PyTorch,卷积和递归神经网络的基本知识。 如果您是PyTorch的新手,请先阅读PyTorch的和 。 问题,建议或更正可以作为问题发布。 我在Python 3.6使用PyTorch 0.4 。 2020年1月27日:添加了两个新教程的工作代码-和 内容 客观的 为了构建可以为图像生成描述性标题的模型,我们提供了它。 为了使事情简单,让我们实现“显示,出席和讲述”文件。 这绝不是当前的最新技术,但仍然相当惊人。 作者的原始实现可以在此处找到。 该模型学习在哪里看。 当您逐字生成标题时,可以看到模型的视线在图像上移动。 这是有可能的,因为它具有“注意”机制,该机制可以使其专注于图像中与下一个要说的单词最相关的部分。 以下是在训练或验证期间未看到的测试图
1
CA⫶TR :带有变压器的图像字幕 针对CATR的PyTorch培训代码和预训练模型( CA ption TR ansformer)。 也可以通过割炬轮毂使用这些模型,以简单地加载具有预训练砝码的模型: model = torch . hub . load ( 'saahiluppal/catr' , 'v3' , pretrained = True ) # you can choose between v1, v2 and v3 样品: 所有这些图像均已由CATR注释。 使用您自己的图像进行测试: $ python predict.py --path /path/to/image --v v2 // You can choose between v1, v2, v3 [default is v3] 或在colab中试用 用法 CATR中没有多余的已编译组件,并且程序包依赖
2021-09-05 21:26:26 3.01MB transformer image-captioning Python
1
Torrent_to_Drive 使用深度学习和Flickr-8k数据集进行自动图像字幕。 还对Xception模型和Inception模型进行了比较。 这是使用卷积神经网络和一种递归神经网络(LSTM)为所有类型的图像生成标题和替代文本的最简单方法。 关于 图像特征将从在imagenet数据集上训练的CNN模型中提取(请参见下文),然后将特征输入到LSTM模型中,后者将负责生成图像标题。 此回购围绕Keras提供的2个模型进行。 提取的功能可以在找到 使用的数据集可以在找到 Jupyter笔记本可以在找到 训练过的模型可以在找到 需求和依赖关系可以在找到 字幕生成器可以在找到 想要贡献? 建议,错误报告,错误解决受到高度赞赏,请打开问题和/或PR 建立 设置虚拟环境(强烈推荐) 激活环境。 安装需求,使用pip3 install -r requirements.txt 注意:
2021-04-23 11:21:56 1.98MB deep-learning tensorflow keras image-processing
1
视觉注意的图像字幕 我的学士学位论文代码。 PyTorch的“显示,参加和讲述”实现。
2021-04-16 10:49:29 15.81MB JupyterNotebook
1