上传者: 42099755
|
上传时间: 2022-04-27 18:12:31
|
文件大小: 212KB
|
文件类型: ZIP
实施StyleNet:使用LSTM生成样式化的图像标题
战队:蔡丽莎,刘德华
介绍
该项目的目的是实现一种图像字幕模型,该模型具有生成风格化字幕(浪漫或有趣)的能力。 我们将基于Microsoft Research Redmond的论文“ StyleNet:用样式生成有吸引力的视觉字幕”建立模型。 我们的模型将以Pytorch编写。
数据
我们的模型使用两个数据集。 第一个是具有图像和事实字幕的Flickr10k数据集,该数据集用于我们的图像字幕任务。 对于我们的语言模型,我们将使用由原始论文的作者发布的FlickrStyle 7k数据集。
技术概述
LSTM模型
我们将从本文应用因式分解LSTM模型。 对于图像字幕,文献中常用的策略是采用预先训练的CNN模型作为编码器,以将图像映射到固定尺寸的特征向量,然后使用LSTM模型作为解码器,以基于图像向量生成字幕。 在这里,“分解的LSTM”