概述
混合系统,使用多层卷积神经网络(CNN)提取图像中的特征,并使用长短期记忆(LSTM)来使用生成的关键字准确地构造有意义的句子
解码器将目标图像与大型数据集进行比较,并生成准确的描述。
使用标准评估矩阵(例如BLUE分数)评估提出的模型的性能。
数据源
使用Flickr 8K图像字幕数据集
在Flickr8k数据集中,每个图像都与描述实体和事件的五个不同标题相关联
建筑学
技术方法
为了对文本序列进行编码,我们将每个单词映射到200维向量。 为此,将使用预训练的手套模型。
GloVe是一种无监督学习算法,用于获取单词的矢量表示
对来自语料库的汇总全局单词-单词共现统计信息进行训练,并且所得表示形式展示了单词向量空间的有趣线性子结构。
使用波束搜索算法和贪婪搜索算法预测输出
使用Tenserboard进行单词矢量化
结果
未来范围
使用基于注意力的模型可以改善结果
1