1.Transformer背景介绍
2.Transfromer整体架构
3.Transformer输入部分
4.Transfromer的编码器
5.Transfromer的解码器
6.Transformer输出部分
7.Transfromer其他部分
1.GPT-1 和 Bert
2.GPT-2
3.GPT-3
Transformer在深度学习环境下背景:
17年自Attention is all you need提出后,开始在NLP(自然语言处理)领域大放异彩
20年后,开始在CV领域发光,到现在基本一统天下了
其在NLP和CV领域下的许多分类、分割、检测等任务下均刷榜
总结一下Transformer模型。
从论文本身来看,其最大的创新在于提出的注意力机制,即多头注意力层,并嵌入到一个模块化可堆叠的模型结构中。一开始Transformer被用于机器翻译,但它也能够用在几乎所有的NLP任务上。自它之后,整个深度学习重心开始转向NLP方面。
4..InstructGPT和ChatGPT
1.VIT
2.Clip与DallE-1
3.DiffusionModel和DallE-2
1