(十)BERT 是 Transformer 的 Encoder 而已

BERT (Bidirectional Encoder Representations from Transformers)

Bert 是 Transformer 的 Encoder 预训练模型,训练技巧是:预测文本中被遮挡的单词,预测两个句子是否是原文中相邻的句子。

预测文本中被遮挡的单词

  • ee:被遮挡单词 cat 的 one-hot 向量
  • pp:被遮挡的地方输出的概率分布
  • Loss = CrossEntropy(e, p)
  • 执行梯度下降更新模型参数

预测两个句子是否是原文中相邻的句子

一个简单的分类任务

任务结合

example

将这两种任务结合到一起,使用大量数据来训练 bert 模型。

  • BERT 不需要手工标数据
  • 可使用大规模的数据集
  • 随机遮挡单词
  • 50% 的下一句是真的
  • 参数太多,训练的代价也是巨大的

   转载规则


《(十)BERT 是 Transformer 的 Encoder 而已》 Harbor Zeng 采用 知识共享署名 4.0 国际许可协议 进行许可。
 本篇
(十)BERT 是 Transformer 的 Encoder 而已 (十)BERT 是 Transformer 的 Encoder 而已
BERT (Bidirectional Encoder Representations from Transformers) Bert 是 Transformer 的 Encoder 预训练模型,训练技巧是:预测文本中被遮挡的单词,预测两个句子是否是原文中相邻的句子。 预测文本中被遮挡的单词 eee:被遮挡单词 cat 的 one-hot 向量 ppp:被遮挡的地方输出的概率分布 Loss
2021-01-17
下一篇 
(九)Transformer 模型,最牛皮的模型 (九)Transformer 模型,最牛皮的模型
Transformer 模型 Transformer 是一种 Seq2Seq 模型 Transformer 不是 RNN Transformer 只有 Attention 和 Dense 层 Transformer 在 NLP 完爆其他模型 剥离 RNN,保留 Attention Attention Encoder 端的输入 x1,x2,…,xm\bold x_1,\bold x_2,\d
2021-01-17
  目录