上一篇
(九)Transformer 模型,最牛皮的模型
Transformer 模型
Transformer 是一种 Seq2Seq 模型
Transformer 不是 RNN
Transformer 只有 Attention 和 Dense 层
Transformer 在 NLP 完爆其他模型
剥离 RNN,保留 Attention
Attention
Encoder 端的输入 x1,x2,…,xm\bold x_1,\bold x_2,\d
2021-01-17
下一篇
(七)Self-Attention 是咋回事儿?
不局限于 seq2seq 模型,Self-Attention 思想可在原地计算模型应该关注的地方(Context Vector)。
SimpleRNN 是用 h0\bold h_0h0 和 x1\bold x_1x1 计算 h1\bold h_1h1,而 Self-Attention 是使用 x1\bold x_1x1 和 c0\bold c_0c0 计算 h1\bold h_1h1
2021-01-16