最近语言模型的创新

最新语言模型的创新

2018年被称为”NLP的ImageNet时刻“：进展惊人，越来越大的LSTM和基于Transformer的架构在庞大的数据集上得到了训练

Matthew Peters撰写的ELMo论文介绍了从语言模型来的嵌入（Embeddings from Language Model，ELMo）：这些是从深度双向语言模型的内部状态中学到的上下文词嵌入。例如‘queen’一词在‘Queen of the United Kingdom’和‘queen bee’中的嵌入将不同
Jeremy Howard和Sebastian Ruder撰写的ULMFiT论文证明了无监督预训练对NLP人物的有效性：作者使用自监督学习的方法（即根据数据自动生成标签）在庞大的文本语料数据库上训练了LSTM语言模型，然后他们在各种任务上进行微调。他们的模型在6个文本分类任务上的表现远远超过了现有技术（在大多数情况下，错误率降低了18%-24%）。而且，他们表明，通过仅仅在100个带标签的示例上微调预训练的模型，它们可以实现从10000个示例中从头开始训练的模型有相同的性能。
Alec Radford和其他OpenAI研究人员撰写的GPT论文也展示无监督预训练的有效性，但是这次使用了类似于Transformer的架构。作者在大型数据集上对一个很大但相当简单的架构进行了预训练，该架构由12个Transformer模块（仅使用掩码多头注意力层）的堆叠组成，并再次使用自监督学习进行训练。然后，他们在各种语言任务上对其进行微调，对每个任务仅进行了少量修改。任务非常多样：它们包括文本分类、蕴含（句子A是否蕴含句子B）、相似度（例如，’今天天气不错‘与’晴天‘非常相似），以及回答问题（基于文本的几段给出了某些上下文，该模型必须回答一些多选题）。仅仅几个月后，即2019年2月，Alec Radford、Jeffrey Wu和其他OpenAI研究人员发表了GPT-2论文，提出了非常相似的架构，但仍然很大（参数超过15亿），他们表明它可以在许多人任务上获得良好的性能。可以在https://github.com/openai/gpt-2上获得GPT-2模型的较小版本，以及预训练的权重
Jacob Devlin和其他Google研究人员的BERT论文还展示在了大型语料库上进行自监督预训练的有效性，它使用了与GPT类似的架构
，但没有非掩码多头注意力层（就像Transformer的编码器）。这意味着模型本质是双向的。这是BERT（Birdirectional Encoder Representation from Transformers）中B的来源。最重要的是作者提出了两个预训练任务，这些任务可以解释该模型的大部分优势：
- 掩码语言模型（Masked Language Model，MLM）
  
  句子中的每个单词被屏蔽的可能性为15%，模型经过训练来预测被屏蔽的单词。例如，如果原始句子是’She had fun at the birthday party‘，则可以把句子’she fun at the party‘赋予模型，模型必须预测单词’had’和‘birthday’（其他输出将被忽略）。更准确地说，每个选定词都有80%的机会被屏蔽，有10%的机会被随机词替换（以减少预训练和微调之间的差异，因为模型在微调时不会看到令牌），并且有10%的机会被保留（使模型偏向正确的答案)
- 下一句预测（Next Sentence Prediction，NSP）
  训练模型来预测两个句子是否连续。例如，应该预测‘The dog sleeps’和‘It snores loudly’是连续的句子，而‘The dogs sleeps’和‘The Earth orbits the Sun’不是连续的句子。这是一项具有挑战性的任务，当对诸如回答问题或蕴含问题等任务进行微调时，它可以显著地改善模型的性能

在2018年2019年地主要创新是更好的子单词分词化、从LSTM转换为Transformers，并使用自监督学习来预训练通用语言模型，然后通过很少的架构更改来进行微调（或完全没有更改）。事情发展很快，没人可以说明明年将流行什么架构。今天，显然是Transformers，但明天可能是CNN（Maha Elbayad等人2018年的论文，研究人员使用掩码2D卷积层来做序列到序列的任务），或者甚至可能是RNN（Shuai Li等人2018年的论文，通过在给定的RNN层中使神经元彼此独立，可以训练更深的RNN，使该RNN能够学习更长的序列

机器学习实战(深度学习部分)

最近语言模型的创新

最新语言模型的创新

相关

标签