图片字幕- 在这个项目中,我系统地分析了基于深度神经网络的图像标题生成方法。 以图像作为输入,该方法可以输出描述图像中内容的英语句子。 我分析了该方法的三个组成部分:卷积神经网络(CNN),递归神经网络(RNN)和句子生成。 通过用三种最先进的体系结构代替CNN部分,我使用了ResNet50。 我还提出了简化版本的门控循环单元(GRU)作为新的循环层。 当与长短期记忆(LSTM)方法进行比较时,简化的GRU可获得可比的结果。 但是它几乎没有参数可以节省内存,并且训练速度更快。 实验表明,改进的方法可以产生与最新方法相当的字幕,而所需的训练记忆较少
2021-07-19 21:37:12 61.97MB JupyterNotebook
1
视觉和语言在生成智能中起着至关重要的作用。因此,在过去的几年中,大量的研究致力于图像描述,即用句法和语义上有意义的句子描述图像的任务。从2015年开始,该任务通常使用由可视化编码步骤和用于文本生成的语言模型组成的流程来解决。
2021-07-18 09:06:15 3.82MB 图像描述
1
Image-Captioning-Project
2021-03-07 09:05:12 974KB JupyterNotebook
1