(十)BERT 是 Transformer 的 Encoder 而已

BERT (Bidirectional Encoder Representations from Transformers)

Bert 是 Transformer 的 Encoder 预训练模型,训练技巧是:预测文本中被遮挡的单词,预测两个句子是否是原文中相邻的句子。

预测文本中被遮挡的单词

  • ee:被遮挡单词 cat 的 one-hot 向量
  • pp:被遮挡的地方输出的概率分布
  • Loss = CrossEntropy(e, p)
  • 执行梯度下降更新模型参数

预测两个句子是否是原文中相邻的句子

一个简单的分类任务

任务结合

example

将这两种任务结合到一起,使用大量数据来训练 bert 模型。

  • BERT 不需要手工标数据
  • 可使用大规模的数据集
  • 随机遮挡单词
  • 50% 的下一句是真的
  • 参数太多,训练的代价也是巨大的

   转载规则


《(十)BERT 是 Transformer 的 Encoder 而已》 Harbor Zeng 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
基于 Rancher Kubernetes 1.17.17 搭建 Kubeflow 1.3 机器学习平台 基于 Rancher Kubernetes 1.17.17 搭建 Kubeflow 1.3 机器学习平台
基于 Rancher Kubernetes 1.17.17 搭建 Kubeflow 1.3 机器学习平台 假设机器上有 NVIDIA GPU,且已经安装高版本驱动。 安装 docker 安装过程参考[1] yum -y install yum-utils && \yum-config-manager --add-repo=https://download.docker.com/
2021-05-25
下一篇 
(九)Transformer 模型,最牛皮的模型 (九)Transformer 模型,最牛皮的模型
Transformer 模型 Transformer 是一种 Seq2Seq 模型 Transformer 不是 RNN Transformer 只有 Attention 和 Dense 层 Transformer 在 NLP 完爆其他模型 剥离 RNN,保留 Attention Attention Encoder 端的输入 x1,x2,…,xm\bold x_1,\bold x_2,\d
2021-01-17
  目录