Automatic generation of natural language from images has attracted extensive attention. In this paper, we take one step further to investigate generation of poetic language (with multiple lines) to an image for automatic poetry creation.
2024-02-25 16:29:30 1.39MB 深度学习 诗歌生成 图像处理
1
生成绘画火炬 根据作者的,对PyTorch重新。 先决条件 该代码已经在Ubuntu 14.04上进行了测试,以下是需要安装的主要组件: Python3 PyTorch 1.0+ 火炬视觉0.2.0+ 张量板 pyyaml 训练模型 python train.py --config configs/config.yaml 检查点和日志将保存到checkpoints 。 用训练好的模型进行测试 默认情况下,它将在检查点中加载最新保存的模型。 您也可以使用--iter通过迭代选择保存的模型。 训练有素的PyTorch模型:[ ] [] python test_single.py \ --image examples/imagenet/imagenet_patches_ILSVRC2012_val_00008210_input.png \ --mask examples/cen
1
今天给大家带来一个文本生成图像的案例。让大家都成为艺术家,自己电脑也能生成图片 ,该模型它能让数十亿人在几秒钟内创建出精美的艺术。 Stable Diffusion模型包括两个步骤: 前向扩散——通过逐渐扰动输入数据将数据映射到噪声。这是通过一个简单的随机过程正式实现的,该过程从数据样本开始,并使用简单的高斯扩散核迭代地生成噪声样本。此过程仅在训练期间使用,而不用于推理。 参数化反向——撤消前向扩散并执行迭代去噪。这个过程代表数据合成,并被训练通过将随机噪声转换为真实数据来生成数据。
2023-04-05 16:25:07 1.33MB 深度学习 图像生成
1
图片字幕 介绍 建立一个模型以从图像生成字幕。 给定图像后,模型可以用英语描述图像中的内容。 为了实现这一点,我们的模型由一个编码器(一个CNN)和一个解码器(一个RNN)组成。 为CNN编码器提供了用于分类任务的图像,其输出被馈送到RNN解码器,后者输出英语句子。 该模型及其超参数的调整基于论文和。 我们使用微软Çommon在CO NTEXT(MS COCO)O bjects为这个项目。 它是用于场景理解的大规模数据集。 该数据集通常用于训练和基准化对象检测,分段和字幕算法。 有关下载数据的说明,请参见下面的“数据”部分。 代码 该代码可以分为两类: 笔记本-该项目的主要代码由一系列Jupyter笔记本构成: 0_Dataset.ipynb介绍数据集并绘制一些样本图像。 1_Preliminaries.ipynb加载和预处理数据并使用模型进行实验。 2_Training.ip
2023-01-02 13:00:14 2.09MB nlp computer-vision cnn pytorch
1
这是FID预训练好的模型,针对coco的文本生成图像定量指标训练好的模型 复现步骤请看:https://blog.csdn.net/air__Heaven/article/details/124751665 CUB-Bird的FID预训练好的模型,请看:https://download.csdn.net/download/air__Heaven/85362542
2022-12-05 11:28:49 30.57MB 文本生成图像 T2I FID GAN
用OpenCV可以生成训练数据,字体大小、颜色、位置可调。可以自己用程序生成随机的验证码,可以随机背景,随机位置,随机字符,随机字体,随机粗细,随机大小,随机颜色,方便实验。
2022-10-30 18:50:32 5.83MB OpenCV 验证码 训练数据 生成图像
1
生成高斯或拉普拉斯金字塔,或从金字塔重建图像。 包含使用金字塔进行图像混合的演示脚本。 该函数比Matlab函数impyramid使用更方便。
2022-09-22 15:33:46 53KB matlab
1
本资源是文本生成图像的SSA-GAN模型复现过程中必备的鸟数据集元处理数据包。包括test、text、train、example_filenames.txt、example_captions.txt、captions.pickle等数据。
2022-07-24 21:05:34 6.19MB 文本生成图像 T2I SSAGAN GAN
1
SSAGAN预训练的 DAMSM 模型,包括文本编码器text encoder和图像编码器image encoder,其中text encoder是双向LSTM模型,image encoder是CNN模型。在文件中均已经预训练好了的第200轮。 下载后将其上传到 DAMSMencoders目录下并进行解压
2022-07-24 21:05:32 87.15MB 文本生成图像 T2I gan LSTM
1
文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像文字生成图像
2022-07-07 16:06:41 2.06MB 文字生成图像