在PyTorch中实现Vi(sual)T(transformer)
大家好,新年快乐! 今天,我们将要实现著名的Vi (双) T (变压器),该产品在“。
代码在这里,可以从下载本文的交互式版本。
ViT将很快在我称为新计算机视觉库中提供
这是一个技术教程,而不是您在普通的中级文章中找到的使您变得富有的前5个最重要的熊猫功能。
因此,在开始之前,我强烈建议您:
看看惊人的网站
观看
阅读文档
因此,ViT使用在图像上工作的普通变压器(“提出的一种变压器)。 但是,如何?
下图显示了ViT的体系结构
输入图像被分解为16x16展平的小块(图像未按比例绘制)。 然后使用普通的完全连接层将它们嵌入,在它们前面添加特殊的cls令牌,并对positional encoding求和。 生成的张量首先传递到标准Transformer,然后传递到分类头。 就是这样。
本文的结构分为以下几节
1