早告诉你了吧
A place to tell the truth, the whole truth and nothing but the truth.
(十)BERT 是 Transformer 的 Encoder 而已 (十)BERT 是 Transformer 的 Encoder 而已
BERT (Bidirectional Encoder Representations from Transformers) Bert 是 Transformer 的 Encoder 预训练模型,训练技巧是:预测文本中被遮挡的单词,预测两个句子是否是原文中相邻的句子。 预测文本中被遮挡的单词 eee:被遮挡单词 cat 的 one-hot 向量 ppp:被遮挡的地方输出的概率分布 Loss
2021-01-17
(九)Transformer 模型,最牛皮的模型 (九)Transformer 模型,最牛皮的模型
Transformer 模型 Transformer 是一种 Seq2Seq 模型 Transformer 不是 RNN Transformer 只有 Attention 和 Dense 层 Transformer 在 NLP 完爆其他模型 剥离 RNN,保留 Attention Attention Encoder 端的输入 x1,x2,…,xm\bold x_1,\bold x_2,\d
2021-01-17
(七)Self-Attention 是咋回事儿? (七)Self-Attention 是咋回事儿?
不局限于 seq2seq 模型,Self-Attention 思想可在原地计算模型应该关注的地方(Context Vector)。 SimpleRNN 是用 h0\bold h_0h0​ 和 x1\bold x_1x1​ 计算 h1\bold h_1h1​,而 Self-Attention 是使用 x1\bold x_1x1​ 和 c0\bold c_0c0​ 计算 h1\bold h_1h1​
2021-01-16
(六)Attention 是咋回事儿? (六)Attention 是咋回事儿?
Seq2Seq 的局限 Seq2Seq 仍有记忆问题,当待翻译的句子长度较长时,它会遗忘较早的 。 Attention 加上 attention,Seq2Seq 不会忘了原始输入,Decoder 每次生成时都回去重新看一遍 Encoder 的所有输入(计算一番),知道要额外关注哪些词,效果很好,但是带来了更多的计算。 Encoder 的最终输出的 hm\bold h_mhm​ 同时也是 D
2021-01-16
(五)Seq2Seq 做机器翻译 (五)Seq2Seq 做机器翻译
Seq2Seq 模型 Seq2Seq 模型,分为两个部分:Encoder 和 Decoder,每个部分都是基于 LSTM。 机器翻译的训练过程 Encoder 的最后一个单元的最终状态参数 h\bold hh 和 c\bold cc 作为 Decoder LSTM 第一个单元的起始状态参数。 h\bold hh 和 c\bold cc 里面包含了输入的英语句子 “go away” 的所有特征信
2021-01-16
(四)使用LSTM做文本生成 (四)使用LSTM做文本生成
这里使用一部 90 多万字小说《琉璃美人煞》为例,使用 LSTM 方法做一次文本生成。 从一句预测下一句 Input data: '玑庸懒外表下的,是一颗琉璃般清澈冰冷的心,前世种种因果,让她今世不懂情感。对修仙'Target data: '庸懒外表下的,是一颗琉璃般清澈冰冷的心,前世种种因果,让她今世不懂情感。对修仙的'Input data: &#x
2021-01-15
(三)长短期记忆-LSTM为什么比RNN更好 (三)长短期记忆-LSTM为什么比RNN更好
LSTM 是在 1997 年被提出来的。 LSTM 结构 LSTM 的结构比 RNN 要复杂,其中包含 4 个参数矩阵(相比于 RNN 只有一个参数矩阵),可从训练数据中反向传播而得到更新学习。 传送带 LSTM 中有一个传送带,可以将过去的信息 Ct−1C_{t-1}Ct−1​ 直接传递给未来的 CtC_tCt​ 四个参数矩阵 遗忘门 遗忘门(forget gate)WfW_fWf​
2021-01-14
(二)SimpleRNN 更适合时序数据的模型 (二)SimpleRNN 更适合时序数据的模型
为什么要 RNN 全连接的逻辑回归有什么局限性? 将整段文字一起处理(one to one) 输入输出是固定的形状 RNN(Recurrent Neural Networks 循环神经网络)更适合序列数据(many to one)。 RNN 内部详解 循环神经网络,顾名思义,单词一个一个的进行训练,x0\bold x_0x0​ 和初始 0 向量拼接在一起,与 A\bold AA 矩阵,
2021-01-14
(一)论分词与编码 (一)论分词与编码
英文分词 “Don’t you love 🤗 Transformers? We sure do.” 通过空格分割: ["Don't", "you", "love", "🤗", "Transformers?", "We", "sure"
2021-01-14