打开文件夹中图像 方向键控制 给每张图片插入不同字幕
2022-09-23 13:00:34 1KB 图像字幕
图像字幕:这是一个基于LSTM和编码器解码器体系结构的ML模型,可预测输入图像的字幕
2022-06-02 10:37:46 119.17MB JupyterNotebook
1
实施StyleNet:使用LSTM生成样式化的图像标题 战队:蔡丽莎,刘德华 介绍 该项目的目的是实现一种图像字幕模型,该模型具有生成风格化字幕(浪漫或有趣)的能力。 我们将基于Microsoft Research Redmond的论文“ StyleNet:用样式生成有吸引力的视觉字幕”建立模型。 我们的模型将以Pytorch编写。 数据 我们的模型使用两个数据集。 第一个是具有图像和事实字幕的Flickr10k数据集,该数据集用于我们的图像字幕任务。 对于我们的语言模型,我们将使用由原始论文的作者发布的FlickrStyle 7k数据集。 技术概述 LSTM模型 我们将从本文应用因式分解LSTM模型。 对于图像字幕,文献中常用的策略是采用预先训练的CNN模型作为编码器,以将图像映射到固定尺寸的特征向量,然后使用LSTM模型作为解码器,以基于图像向量生成字幕。 在这里,“分解的LSTM”
2022-04-27 18:12:31 212KB JupyterNotebook
1
图像字幕火炬 使用Inception_V3作为主干图像字幕的简单尝试。 基于Pytorch,无需关注(可能会在以后更新)
2022-04-15 15:18:12 780KB Python
1
Torrent_to_Drive 使用深度学习和Flickr-8k数据集进行自动图像字幕。 还对Xception模型和Inception模型进行了比较。 这是使用卷积神经网络和一种递归神经网络(LSTM)为所有类型的图像生成标题和替代文本的最简单方法。 关于 图像特征将从在imagenet数据集上训练的CNN模型中提取(请参见下文),然后将特征输入到LSTM模型中,后者将负责生成图像标题。 此回购围绕Keras提供的2个模型进行。 提取的功能可以在找到 使用的数据集可以在找到 Jupyter笔记本可以在找到 训练过的模型可以在找到 需求和依赖关系可以在找到 字幕生成器可以在找到 想要贡献? 建议,错误报告,错误解决受到高度赞赏,请打开问题和/或PR 建立 设置虚拟环境(强烈推荐) 激活环境。 安装需求,使用pip3 install -r requirements.txt 注意:
2022-04-12 12:05:26 1.98MB 深度学习 人工智能
图片字幕 :man::laptop: 基于CNN和LSTM概念以及Flicker_8k和GUI数据集的图像标题深度学习模型 :mechanical_leg: 来自tkinter。 Convolutional Neural Network是一种深度学习算法,可以吸收输入图像,为图像中的各个方面/对象分配重要性,并能够区分彼此。 这种方法的流程结构就像 在分类的最后一部分中,我们使用了RNN的扩展版本,即LSTM ,它使用了存储的内存和结构看起来像 表格中的数据集 图像 标签 一个穿着粉红色裙子的孩子正在以入门方式爬上楼梯。 一个走进一幢木制建筑物的女孩。 一个小女孩爬进一个木制剧场。 一个小女孩爬上楼梯到她的游戏室。 一个小女孩穿着粉红色的连衣裙走进一个小木屋。 数据集和。 以下图像标签上的步骤 取材和清洁的标准方法 如果您没有强大的GPU,则从大型数据集中提取特征将花费大量时间。 我的机器大约需要6-7分钟。 您可以使用GPU机器在
2022-04-03 11:06:07 1.36GB JupyterNotebook
1
图片字幕 介绍 该项目是论文。 它可能并不完全相似。 使用Pytorch作为代码。 ResNet101用于提取功能。 您可以检查预训练的模型。 使用2017 Val图像[5K / 1GB],注释[241MB]。 请检查make_vocab.py和data_loader.py。 Vocab.pickle是一个pickle文件,其中包含注释中的所有单词。 coco_ids.npy存储要使用的图像ID。 另外,您必须设置路径或其他设置。 执行prerocess_idx函数。 您可以运行源代码并尝试自己的示例。 环境 的Python 3.8.5 火炬1.7.1 CUDA 11.0 如何使用 火车 cd src python train.py 进行测试 cd src python sample.py 结果 时代100 说明文字:一名妇女在手提箱中手持一只泰迪熊 待办事项清单 张量
2022-03-27 15:27:54 95KB Python
1
这是源代码生成图像描述 要求 首先在要设置的主机中创建docker卷: Python 3.5, Numpy 1.14, TensorFlow 1.8, win32com, scipy, gensim ,matplotlib, json, pickle 教程与文档 要使用代码,请运行: demo.py: Generate descriptions for images in images images test_val.py: Generate description for test case in dataset To create a description for the sentence, paste the image into the images folder, run caption_image.py extract_feautu
2022-03-18 20:50:32 20.83MB Python
1
概念字幕数据集 概念字幕是一个包含(图像URL,字幕)对的数据集,旨在训练和评估机器学习的图像字幕系统。 资料下载 有关详细信息,请参见 。 动机 自动图像字幕的任务是产生能正确反映图像视觉内容的自然语言(通常是句子)。 到目前为止,最常用于此任务的资源是,其中包含约120,000张图像和5路图像标题注释(由付费注释者生成)。 Google的“概念字幕”数据集包含超过300万张图像,以及自然语言字幕。 与MS-COCO图像的精选样式相比,Conceptual Captions图像及其原始描述是从Web上收集的,因此代表了更多的样式。 原始描述是从与Web图像关联的Alt-text HTML属性中获取的。 我们开发了一种自动流水线,用于提取,过滤和转换候选图像/字幕对,目的是在最终字幕的清洁度,信息量,流畅性和可学习性之间取得平衡。 本文提供了更多详细信息(如果您在工作中使用或讨论此数据
2021-11-10 16:15:21 1.27MB Shell
1
注意图像字幕注意 该存储库包括“的实现。 要求 Python 3.6 Java 1.8.0 PyTorch 1.0 苹果酒(已经添加为子模块) coco-caption(已经添加为子模块) 张量板 培训AoANet 准备数据 请参阅data/README.md详细信息。 (注释:设置word_count_threshold在scripts/prepro_labels.py至4,以产生大小10369的词汇表。) 您还应该预处理数据集并获取缓存以计算苹果酒得分: $ python scripts/prepro_ngrams.py --input_json data/dataset_coco.json --dict_json data/cocotalk.json --output_pkl data/coco-train --split train 开始训练 $ CUDA_VISIB
1