BERT (Bidirectional Encoder Representations from Transformers)
Bert 是 Transformer 的 Encoder 预训练模型,训练技巧是:预测文本中被遮挡的单词,预测两个句子是否是原文中相邻的句子。
预测文本中被遮挡的单词
eee:被遮挡单词 cat 的 one-hot 向量
ppp:被遮挡的地方输出的概率分布
Loss
2021-01-17