Transformer架构

问题抽象

给定一个单词表 $V$ 。其中词语构成的一个n长序列表示为 $w_{1 : n} \in R^{n \times ∣ V ∣}$ (其中每一个词语用 $∣ V ∣$ 长的独热码表达)。

一个语言模型的任务是使用前 $t - 1$ 个词语去预测第 $t$ 个位置的词语：

w_{t} \sim so f t ma x (f (w_{1 : t - 1}))

问题的关键在于确定一个映射 $f : R^{(t - 1) \times ∣ V ∣} \to R^{∣ V ∣}$ ，将 $t - 1$ 长的独热码序列转换成单词表中每个单词的得分。最后再通过 $so f t ma x$ 函数将得分转换为概率即可。

词嵌入

首先需要将独热码编码的单词转化为有语义的向量，称为词嵌入 (Word Embedding)。

上下文无关词嵌入

上下文无关词嵌入是基本的词嵌入手段，即将每个单词视作独立的个体，用向量表示其内禀的含义，记为向量 $x_{w}$ 。

设词向量的维度为 $d$ ，则词嵌入矩阵为 $E \in R^{d \times ∣ V ∣}$ 。记上下文无关词嵌入得到的词向量序列为 $x_{1 : n}$ ，则有：

x_{1 : n} = w_{1 : n} E^{T} \in R^{n \times d}

上下文相关词嵌入

上下文无关词嵌入只能得到每个单词独立的含义，却不能得到单词放在特定语境 (单词序列) 下的含义。上下文相关词嵌入就是在上下文无关词嵌入的基础上，得到单词在特定语境下的含义，表示为向量 $h_{w}$

思路一、使用RNN

传统的做法是使用RNN语言模型的中间态作为编码：

h_{t} = σ (W h_{t - 1} + U x_{t})

但是RNN的缺陷在于:

数据间的序列相关性 (如要计算 $h_{t}$ ，必须先计算 $h_{t - 1}$ ) 无法高效利用GPU的并行计算速度优势。
序列间大量的矩阵操作使得模型的“遗忘速度”过快，无法很好地理解相距较远的上下文。

思路二、使用自注意力机制 (self-attention)

注意力机制很早之前便被提出，并且应用在神经机器翻译等领域优化使用RNN模型的decoder-encoder架构。此时的注意力机制为cross-attention：基于一个输入序列 $x_{1 : n}$ 生成另一个输出序列 $y_{1 : m}$

在此基础上稍作调整，便得到了自注意力机制 (self-attention)：根据输入序列 $y_{< t}$ ，预测输出 $y_{t}$ 。

1. 自注意力的工作原理与K-Q-V矩阵

根据当前词向量 $x_{i}$ ，得到query向量

q_{i} = Q x_{i} (Q \in R^{d \times d})

对于序列的每一个单词，计算得到其key和value向量

k_{j} = K x_{j} (K \in R^{d \times d})

v_{j} = V x_{j} (V \in R^{d \times d})

根据key向量和query向量计算得到序列的每个单词与当前词的注意力得分，并通过 $so f t ma x$ 函数归一化

α_{ij} = so f t ma x (q_{i}^{T} k_{j}) = \frac{exp ( q _{i}^{T} k _{j} )}{\sum _{j^{'} = 1}^{n} exp ( q _{i}^{T} k _{j^{'}} )}

根据序列各个单词的得分对values向量组加权平均，得到 $h_{i}$

h_{i} = j = 1 \sum n α_{ij} v_{j}

2. 位置信息的表示

上述的自注意力机制虽然解决了RNN的两个缺陷，但是却出现了新的问题——舍弃序列模型后，单词在序列中的位置信息无法表达。

一个之际的解决方式就是修改单词向量，在其中插入位置信息。设最大序列长度为 $N$ ，则位置信息为 $P \in R^{N \times d}$ 。将其加入词向量中得到包含位置信息的词向量：

\tilde{x}_{i} = P_{i} + x_{i}

3. 多层注意力

如果需要使用多层注意力，那么直接将第一层的输出 $h_{1 : n}$ 作为第二层的输入是不够的，因为中间缺少非线性变换，导致最终的效果等价于单层注意力。

因此，要在层与层之间加入非线性变换层（feed-forward network）：

h_{FF} = W_{2} R e LU (W_{1} h_{se l f - a tt} + b_{1}) + b_{2}

一般取使中间层的维度大于 $d$ ，如取 $W_{1} \in R^{5 d \times d}$ ， $W_{2} \in R^{d \times 5 d}$ 。