Task——Transformer
9.1 Transformer
Transformer 是一种新的、基于 attention 机制来实现的特征提取器,可用于代替 CNN 和 RNN 来提取序列的特征。
Transformer 首次由论文 《Attention Is All You Need》 提出,在该论文中 Transformer 用于 encoder – decoder 架构。事实上 Transformer 可以单独应用于 encoder 或者单独应用于 decoder 。
Transformer 相比较 LSTM 等循环神经网络模型的优点:
可以直接捕获序列中的长距离依赖关系。
模
1