参考1:李宏毅 https://www.bilibili.com/video/av9770302?p=9
(上图应该省略了一个归一化层,模型通过标签知道应该(x1,y1)对应的值是最大的,就会学习到这样一个概率分布,这里直接将attention的weight作为output的distribution)
把(x1,y1)丢进去产生新的z1,继而产生新的attention的weight
当END的attention的weight最大时结束
另一个参考模型图:
pointer network的另一个应用:对文本进行summary
不使用pointer network:解码器产生key与编码
1