上传者: 42168265
|
上传时间: 2022-04-03 11:06:07
|
文件大小: 1.36GB
|
文件类型: -
图片字幕 :man::laptop:
基于CNN和LSTM概念以及Flicker_8k和GUI数据集的图像标题深度学习模型 :mechanical_leg: 来自tkinter。
Convolutional Neural Network是一种深度学习算法,可以吸收输入图像,为图像中的各个方面/对象分配重要性,并能够区分彼此。
这种方法的流程结构就像
在分类的最后一部分中,我们使用了RNN的扩展版本,即LSTM ,它使用了存储的内存和结构看起来像
表格中的数据集
图像
标签
一个穿着粉红色裙子的孩子正在以入门方式爬上楼梯。 一个走进一幢木制建筑物的女孩。 一个小女孩爬进一个木制剧场。 一个小女孩爬上楼梯到她的游戏室。 一个小女孩穿着粉红色的连衣裙走进一个小木屋。
数据集和。
以下图像标签上的步骤
取材和清洁的标准方法
如果您没有强大的GPU,则从大型数据集中提取特征将花费大量时间。 我的机器大约需要6-7分钟。 您可以使用GPU机器在