神经字幕 该项目拍摄图像并生成合适的标题。 它使用两个CNN之一来提取图像特征,然后将其输入LSTM。 然后,LSTM逐字生成一个句子。 该项目基于使用TensorFlow 1.14的Python 3.7.4构建。 Inception_v3和VGG16是此项目中使用的两个预加密的CNN。 它使用Flickr30k数据集进行训练和测试。 对于Inception_v3,每个图像的大小调整为299 x 299像素,对于VGG16,图像的大小调整为224 x 224像素。 这是一个例子: 标题:一个街角,前面有灯
2022-12-29 17:02:27 166KB cnn lstm sentence extracting-features
1
对MSCOCO Captions数据进行指标评测的代码,包含各指标对应的jar库。官方提供的测评代码是python 2.7,这个版本支持python 3.x。
2021-11-01 18:14:51 105.54MB MSCOCO ImageCaption COCO captioner
1
图像字幕 CNN-LSTM神经网络,用于从图像生成字幕。 基于我为计算机视觉决赛所做的小组项目
1