Transformer

论文链接：Attention is all you need

Intro

之前的RNN和LSTM方法是基于时序的，不能并行化(parallelizable)，也就是计算了t-1时刻之后才能计算t时刻，训练效率就比较低。

Self-Attention

An attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence

计算出的每一个\(\hat a\)是相对于\(v\)的权重(是一个数值而不是向量)，权重越大表示越关注这个\(v\)，权重就是query和key的相似度

矩阵表示

上述操作都是矩阵乘法，可以并行化处理

Multi-head Self-Attention

将\(q^1\)拆分成\(q^{1,1}\)和\(q^{1,2}\)，原论文中是均分，比如把\((1,1,0,1)\)分成\((1,1)\)和\((0,1)\)

Encoder and Decoder

左边为encoder
multi-head self-attention + MLP
有一个residual connection, LayerNorm(x + Sublayer(x))
在变长的应用中使用LayerNorm而不是BatchNorm，对样本进行normalization而不是feature

右边为decoder
当前时刻的输入是上一时刻的输出
decoder在训练时基于t时刻之前的数据，不应该知道t以后的输入，而self-attention机制能看到所有时刻的数据
所以使用Mask，保证t时刻不会看到之后的数据，使训练与预测行为一致

Reference

[1] 这么多年，终于有人讲清楚 Transformer 了！

[2] The Illustrated Transformer

[3] 举个例子讲下transformer的输入输出细节及其他

论文 Transformer

Transformer

Intro

Self-Attention

Multi-head Self-Attention

Encoder and Decoder

Reference

相关

免费的论文查重网站

可控难度的问题生成论文解读

Understanding Natural Language Queries over Relational Databases论文学习

【论文阅读】End to End Learning for Self-Driving Cars

【论文阅读】End to End Learning for Self-Driving Cars

论文翻译：2020_WaveCRN: An efficient convolutional recurrent neural network for en

论文翻译：2020_WaveCRN: An efficient convolutional recurrent neural network for en

《Video Abnormal Event Detection by Learning to Complete Visual Cloze Tests》论

ICCV2021 | SOTR:使用transformer分割物体

论文爬取（三）

《多种机器学习视角下的入侵检测研究》论文复现Day01

ICCV2021 | Swin Transformer: 使用移位窗口的分层视觉Transformer

标签