分类: nlp | 告你什么

文章分类
JVM 3 Java并发 2 spark与大数据 10 spark与机器学习 1 hadoop与大数据 1 nlp 10 知识问答 1 hexo静态博客搭建教程 6 机器学习 8 scala 2 线性代数 4 分布式 2 JavaScript异端邪说 1 作业 10 安卓 4 数据库 1 日记 1 架构设计 2 python 1 系统 1 考试 15 面经 1 语言基础 2 算法 1
                            
                            （十）BERT 是 Transformer 的 Encoder 而已
                        
                                BERT (Bidirectional Encoder Representations from Transformers)
Bert 是 Transformer 的 Encoder 预训练模型，训练技巧是：预测文本中被遮挡的单词，预测两个句子是否是原文中相邻的句子。
 预测文本中被遮挡的单词

eee：被遮挡单词 cat 的 one-hot 向量
ppp：被遮挡的地方输出的概率分布
Loss 
                            
                                2021-01-17
                            
                                    nlp
                                
                            Transformer
                        
                            bert
                        
                            encoder
                        
                            （九）Transformer 模型，最牛皮的模型
                        
                                 Transformer 模型

Transformer 是一种 Seq2Seq 模型
Transformer 不是 RNN
Transformer 只有 Attention 和 Dense 层
Transformer 在 NLP 完爆其他模型

剥离 RNN，保留 Attention
 Attention
Encoder 端的输入 x1,x2,…,xm\bold x_1,\bold x_2,\d
                            
                                2021-01-17
                            
                                    nlp
                                
                            rnn
                        
                            Self-Attention
                        
                            Attention
                        
                            Transformer
                        
                            （八）LSTM-Attention 实现机器翻译
                        
                                2021-01-17
                            
                                    nlp
                                
                            lstm
                        
                            机器翻译
                        
                            Attention
                        
                            （七）Self-Attention 是咋回事儿？
                        
                                不局限于 seq2seq 模型，Self-Attention 思想可在原地计算模型应该关注的地方（Context Vector）。

SimpleRNN 是用 h0\bold h_0h0​ 和 x1\bold x_1x1​ 计算 h1\bold h_1h1​，而 Self-Attention 是使用 x1\bold x_1x1​ 和 c0\bold c_0c0​ 计算 h1\bold h_1h1​
                            
                                2021-01-16
                            
                                    nlp
                                
                            rnn
                        
                            Self-Attention
                        
                            seq2seq
                        
                            （六）Attention 是咋回事儿？
                        
                                 Seq2Seq 的局限
Seq2Seq 仍有记忆问题，当待翻译的句子长度较长时，它会遗忘较早的 。

 Attention
加上 attention，Seq2Seq 不会忘了原始输入，Decoder 每次生成时都回去重新看一遍 Encoder 的所有输入（计算一番），知道要额外关注哪些词，效果很好，但是带来了更多的计算。

Encoder 的最终输出的 hm\bold h_mhm​ 同时也是 D
                            
                                2021-01-16
                            
                                    nlp
                                
                            rnn
                        
                            seq2seq
                        
                            Attention
                        
                            （五）Seq2Seq 做机器翻译
                        
                                 Seq2Seq 模型
Seq2Seq 模型，分为两个部分：Encoder 和 Decoder，每个部分都是基于 LSTM。
 机器翻译的训练过程
Encoder 的最后一个单元的最终状态参数 h\bold hh 和 c\bold cc 作为 Decoder LSTM 第一个单元的起始状态参数。 h\bold hh 和 c\bold cc 里面包含了输入的英语句子 “go away” 的所有特征信
                            
                                2021-01-16
                            
                                    nlp
                                
                            rnn
                        
                            lstm
                        
                            seq2seq
                        
                            机器翻译
                        
                            （四）使用LSTM做文本生成
                        
                                这里使用一部 90 多万字小说《琉璃美人煞》为例，使用 LSTM 方法做一次文本生成。
 从一句预测下一句
Input data:  '玑庸懒外表下的，是一颗琉璃般清澈冰冷的心，前世种种因果，让她今世不懂情感。对修仙'Target data: '庸懒外表下的，是一颗琉璃般清澈冰冷的心，前世种种因果，让她今世不懂情感。对修仙的'Input data:  &#x
                            
                                2021-01-15
                            
                                    nlp
                                
                            rnn
                        
                            lstm
                        
                            文本生成
                        
                            jupyter
                        
                            （三）长短期记忆-LSTM为什么比RNN更好
                        
                                LSTM 是在 1997 年被提出来的。
 LSTM 结构

LSTM 的结构比 RNN 要复杂，其中包含 4 个参数矩阵（相比于 RNN 只有一个参数矩阵），可从训练数据中反向传播而得到更新学习。
 传送带

LSTM 中有一个传送带，可以将过去的信息 Ct−1C_{t-1}Ct−1​ 直接传递给未来的 CtC_tCt​
 四个参数矩阵
 遗忘门
遗忘门（forget gate）WfW_fWf​
                            
                                2021-01-14
                            
                                    nlp
                                
                            lstm
                        
                            门
                        
                            （二）SimpleRNN 更适合时序数据的模型
                        
                                 为什么要 RNN
全连接的逻辑回归有什么局限性？

将整段文字一起处理（one to one）
输入输出是固定的形状

RNN（Recurrent Neural Networks 循环神经网络）更适合序列数据（many to one）。

 RNN 内部详解

循环神经网络，顾名思义，单词一个一个的进行训练，x0\bold x_0x0​ 和初始 0 向量拼接在一起，与 A\bold AA 矩阵，
                            
                                2021-01-14
                            
                                    nlp
                                
                            rnn
                        
                            keras
                        
                            （一）论分词与编码
                        
                                 英文分词

“Don’t you love 🤗 Transformers? We sure do.”

通过空格分割：
 ["Don't", "you", "love", "🤗", "Transformers?", "We", "sure"
                            
                                2021-01-14
                            
                                    nlp
                                
                            中文分词
                        
                            英文分词
                        
                            one-hot encoding
                        
                            word embedding