上传者: 42157166
|
上传时间: 2021-11-30 09:47:54
|
文件大小: 46KB
|
文件类型: -
自我注意和卷积
该代码随附于 , 和的论文发表于ICLR 2020)。
抽象的
将注意力机制整合到视觉中的最新趋势已导致研究人员重新考虑卷积层作为主要构建块的优势。 除了帮助CNN处理远程依赖关系之外,Ramachandran等人(英文)。 (2019)表明,注意力可以完全取代卷积,并在视觉任务上达到最先进的性能。 这就提出了一个问题:学到的注意力层的运作方式与卷积层的运作方式类似吗? 这项工作提供了证据表明注意力层可以进行卷积,实际上,他们经常在实践中学会这样做。 具体来说,我们证明具有足够数量的头的多头自我注意层至少与任何卷积层一样强大。 然后,我们的数值实验表明该现象也在实践中发生,从而证实了我们的分析。 我们的代码是公开可用的。
与注意力互动
查看我们的。
复制
要在具有GPU的Ubuntu计算机上运行我们的代码,请在全新的Anaconda环境中安装Python软件包:
cond