5. BERT算法原理解析

1. 前言

在本文之前我们已经介绍了ELMo和GPT的两个成功的模型，今天给大家介绍google新发布的BERT模型。BERT来头可不小，其性能超越许多使用任务特定架构的系统，刷新了11项NLP任务的当前最优性能记录。

2. BERT原理

BERT模型的全称是Bidirectional Encoder Representations from Transformers，它是一种新型的语言模型。之所以说是一种新型的语言模型，是因为它通过联合调节所有层中的双向来训练预训练深度双向表示。

想深入了解BERT模型，首先应该理解语言模型。预训练的语言模型对于众多自然语言处理问题起到了重要作用，比如SQuAD问答任务、命名实体识别以及情感识别。目前将预训练的语言模型应用到NLP任务主要有两种策略，一种是基于特征的语言模型，如；另一种是基于微调的语言模型，如。这两类语言模型各有其优缺点，而BERT的出现，似乎融合了它们所有的优点，因此才可以在诸多后续特定任务上取得最优的效果。

2.1 BERT模型总体结构

BERT是一种基于微调的多层双向Transformer编码器，其中的Transformer与原始的Transformer是相同的，并且实现了两个版本的BERT模型，在两个版本中前馈大小都设置为4层：

lBERTBASE：L=12，H=768，A=12，Total Parameters=110M

lBERTLARGE：L=24，H=1024，A=16，Total Parameters=340M

其中层数（即Transformer blocks块）表示为L，隐藏大小表示为H，自注意力的数量为A。

2.2 BERT模型输入

输入表示可以在一个词序列中表示单个文本句或一对文本(例如，[问题，答案])。对于给定的词，其输入表示是可以通过三部分Embedding求和组成。Embedding的可视化表示如下图所示：

token Embeddings表示的是词向量，第一个单词是CLS标志，可以用于之后的分类任务，对于非分类任务，可以忽略词向量；
Segment Embeddings用来区别两种句子，因为预训练不只做语言模型还要做以两个句子为输入的分类任务；
Position Embeddings是通过模型学习得到的。

2.3 BERT模型预训练任务

BERT模型使用两个新的无监督预测任务对BERT进行预训练，分别是Masked LM和Next Sentence Prediction：

2.3.1 Masked LM

为了训练深度双向Transformer表示，采用了一种简单的方法：随机掩盖部分输入词，然后对那些被掩盖的词进行预测，此方法被称为“Masked LM”(MLM)。预训练的目标是构建语言模型，BERT模型采用的是bidirectional Transformer。那么为什么采用“bidirectional”的方式呢？因为在预训练语言模型来处理下游任务时，我们需要的不仅仅是某个词左侧的语言信息，还需要右侧的语言信息。

在训练的过程中，随机地掩盖每个序列中15％的token，并不是像word2vec中的cbow那样去对每一个词都进行预测。MLM从输入中随机地掩盖一些词，其目标是基于其上下文来预测被掩盖单词的原始词汇。与从左到右的语言模型预训练不同，MLM目标允许表示融合左右两侧的上下文，这使得可以预训练深度双向Transformer。Transformer编码器不知道它将被要求预测哪些单词，或者哪些已经被随机单词替换，因此它必须对每个输入词保持分布式的上下文表示。此外，由于随机替换在所有词中只发生1.5%，所以并不会影响模型对于语言的理解。

2.3.2 Next Sentence Prediction

很多句子级别的任务如自动问答（QA）和自然语言推理（NLI）都需要理解两个句子之间的关系，譬如上述Masked LM任务中，经过第一步的处理，15%的词汇被遮盖。那么在这一任务中我们需要随机将数据划分为等大小的两部分，一部分数据中的两个语句对是上下文连续的，另一部分数据中的两个语句对是上下文不连续的。然后让Transformer模型来识别这些语句对中，哪些语句对是连续的，哪些对子不连续。

2.4 模型比较

ELMo、GPT、BERT都是近几年提出的模型，在各自提出的时候都取得了不错的成绩。并且相互之间也是相辅相成的关系。

3个模型比较如下：

再往前看，在NLP中有着举足轻重地位的模型和思想还有Word2vec、LSTM等。

Word2vec作为里程碑式的进步，对NLP的发展产生了巨大的影响，但Word2vec本身是一种浅层结构，而且其训练的词向量所“学习”到的语义信息受制于窗口大小，因此后续有学者提出利用可以获取长距离依赖的LSTM语言模型预训练词向量，而此种语言模型也有自身的缺陷，因为此种模型是根据句子的上文信息来预测下文的，或者根据下文来预测上文，直观上来说，我们理解语言都要考虑到左右两侧的上下文信息，但传统的LSTM模型只学习到了单向的信息。

3. 总结

语言模型的每一次进步都推动着NLP的发展，从Word2vec到ELMo，从OpenAI GPT到BERT。通过这些发展我们也可以洞悉到，未来表征学习（Deep learning is representation learning）将会越来越多的应用到NLP相关任务中，它们可以充分的利用目前海量的数据，然后结合各种任务场景，去训练出更为先进的模型，从而促进AI项目的落地。

NLP ELMo GPT BERT 语言模型 word2vec LSTM

5. BERT算法原理解析

1. 前言

2. BERT原理

2.1 BERT模型总体结构

2.2 BERT模型输入

2.3 BERT模型预训练任务

2.3.1 Masked LM

2.3.2 Next Sentence Prediction

2.4 模型比较

3. 总结

相关

BERT代码阅读

BERT代码阅读

NLP的前世今生

编码实现RNN以及LSTM

LSTM

安装pyhanlp报错，之解决方案

医学图像配准 | Voxelmorph 微分同胚 | MICCAI2019

BERT文本相似度实战

NLP中的预训练语言模型（三）—— XL-Net和Transformer-XL

5个很少被提到但能提高NLP工作效率的Python库

中文分词工具探析（一）：ICTCLAS (NLPIR)

不懂n-gram，怎么学好语言模型？

标签