Contextualized Word Embedding-ELMO/BERT/GPT

参考这篇文章：

https://www.cnblogs.com/dogecheng/p/11615750.html

我们期望每一个 word token 都有一个 embedding。每个 word token 的 embedding 依赖于它的上下文。这种方法叫做 Contextualized Word Embedding。

BERT 是 Transformer 的 Encoder，GPT则是 Transformer 的 Decoder。GPT 输入一些词汇，预测接下来的词汇。其计算过程如下图所示。

先记到这里吧，其他好像也没有特别需要记录的。

读书笔记 NLP

相关