这是图像字幕的教程。
这是我正在编写的第一篇,是关于如何使用令人惊叹的PyTorch库自己实现酷模型的。
假定具备PyTorch,卷积和递归神经网络的基本知识。
如果您是PyTorch的新手,请先阅读PyTorch的和 。
问题,建议或更正可以作为问题发布。
我在Python 3.6使用PyTorch 0.4 。
2020年1月27日:添加了两个新教程的工作代码-和
内容
客观的
为了构建可以为图像生成描述性标题的模型,我们提供了它。
为了使事情简单,让我们实现“显示,出席和讲述”文件。 这绝不是当前的最新技术,但仍然相当惊人。 作者的原始实现可以在此处找到。
该模型学习在哪里看。
当您逐字生成标题时,可以看到模型的视线在图像上移动。
这是有可能的,因为它具有“注意”机制,该机制可以使其专注于图像中与下一个要说的单词最相关的部分。
以下是在训练或验证期间未看到的测试图
1