首先从整体上看一下Transformer的结构:从图中可以看出,整体上Transformer由四部分组成:Inputs:Inputs=WordEmbedding(Inputs)+PositionalEmbeddingInputs=WordEmbedding(Inputs)+PositionalEmbeddingInputs=WordEmbedding(Inputs)+PositionalEmbeddingOutputs:Ouputs=WordEmbedding(Outputs)+PositionalEmbeddingOuputs=WordEmbedding(Outputs)+Positiona
1