不局限于 seq2seq 模型,Self-Attention 思想可在原地计算模型应该关注的地方(Context Vector)。
SimpleRNN 是用 h0\bold h_0h0 和 x1\bold x_1x1 计算 h1\bold h_1h1,而 Self-Attention 是使用 x1\bold x_1x1 和 c0\bold c_0c0 计算 h1\bold h_1h1
2021-01-16