最近语言模型的创新


最新语言模型的创新

2018年被称为”NLP的ImageNet时刻“:进展惊人,越来越大的LSTM和基于Transformer的架构在庞大的数据集上得到了训练

  • Matthew Peters撰写的ELMo论文介绍了从语言模型来的嵌入(Embeddings from Language Model,ELMo):这些是从深度双向语言模型的内部状态中学到的上下文词嵌入。例如‘queen’一词在‘Queen of the United Kingdom’和‘queen bee’中的嵌入将不同

  • Jeremy Howard和Sebastian Ruder撰写的ULMFiT论文证明了无监督预训练对NLP人物的有效性:作者使用自监督学习的方法(即根据数据自动生成标签)在庞大的文本语料数据库上训练了LSTM语言模型,然后他们在各种任务上进行微调。他们的模型在6个文本分类任务上的表现远远超过了现有技术(在大多数情况下,错误率降低了18%-24%)。而且,他们表明,通过仅仅在100个带标签的示例上微调预训练的模型,它们可以实现从10000个示例中从头开始训练的模型有相同的性能。

  • Alec Radford和其他OpenAI研究人员撰写的GPT论文也展示无监督预训练的有效性,但是这次使用了类似于Transformer的架构。作者在大型数据集上对一个很大但相当简单的架构进行了预训练,该架构由12个Transformer模块(仅使用掩码多头注意力层)的堆叠组成,并再次使用自监督学习进行训练。然后,他们在各种语言任务上对其进行微调,对每个任务仅进行了少量修改。任务非常多样:它们包括文本分类、蕴含(句子A是否蕴含句子B)、相似度(例如,’今天天气不错‘与’晴天‘非常相似),以及回答问题(基于文本的几段给出了某些上下文,该模型必须回答一些多选题)。仅仅几个月后,即2019年2月,Alec Radford、Jeffrey Wu和其他OpenAI研究人员发表了GPT-2论文,提出了非常相似的架构,但仍然很大(参数超过15亿),他们表明它可以在许多人任务上获得良好的性能。可以在https://github.com/openai/gpt-2上获得GPT-2模型的较小版本,以及预训练的权重

  • Jacob Devlin和其他Google研究人员的BERT论文还展示在了大型语料库上进行自监督预训练的有效性,它使用了与GPT类似的架构
    ,但没有非掩码多头注意力层(就像Transformer的编码器)。这意味着模型本质是双向的。这是BERT(Birdirectional Encoder Representation from Transformers)中B的来源。最重要的是作者提出了两个预训练任务,这些任务可以解释该模型的大部分优势:

    • 掩码语言模型(Masked Language Model,MLM)

      句子中的每个单词被屏蔽的可能性为15%,模型经过训练来预测被屏蔽的单词。例如,如果原始句子是’She had fun at the birthday party‘,则可以把句子’she fun at the party‘赋予模型,模型必须预测单词’had’和‘birthday’(其他输出将被忽略)。更准确地说,每个选定词都有80%的机会被屏蔽,有10%的机会被随机词替换(以减少预训练和微调之间的差异,因为模型在微调时不会看到令牌),并且有10%的机会被保留(使模型偏向正确的答案)

    • 下一句预测(Next Sentence Prediction,NSP)
      训练模型来预测两个句子是否连续。例如,应该预测‘The dog sleeps’和‘It snores loudly’是连续的句子,而‘The dogs sleeps’和‘The Earth orbits the Sun’不是连续的句子。这是一项具有挑战性的任务,当对诸如回答问题或蕴含问题等任务进行微调时,它可以显著地改善模型的性能

在2018年2019年地主要创新是更好的子单词分词化、从LSTM转换为Transformers,并使用自监督学习来预训练通用语言模型,然后通过很少的架构更改来进行微调(或完全没有更改)。事情发展很快,没人可以说明明年将流行什么架构。今天,显然是Transformers,但明天可能是CNN(Maha Elbayad等人2018年的论文,研究人员使用掩码2D卷积层来做序列到序列的任务),或者甚至可能是RNN(Shuai Li等人2018年的论文,通过在给定的RNN层中使神经元彼此独立,可以训练更深的RNN,使该RNN能够学习更长的序列

相关