神经字幕
该项目拍摄图像并生成合适的标题。 它使用两个CNN之一来提取图像特征,然后将其输入LSTM。 然后,LSTM逐字生成一个句子。 该项目基于使用TensorFlow 1.14的Python 3.7.4构建。 Inception_v3和VGG16是此项目中使用的两个预加密的CNN。 它使用Flickr30k数据集进行训练和测试。 对于Inception_v3,每个图像的大小调整为299 x 299像素,对于VGG16,图像的大小调整为224 x 224像素。
这是一个例子:
标题:一个街角,前面有灯
1