语言模型 (Language Model)

语言模型的概念

给定一列单词 $(x^{(t)}, \dots, x^{(1)})$ ，语言模型的任务是预测下一个可能出现的单词的概率分布：

P (x^{(t + 1)} ∣ x^{(t)}, \dots, x^{(1)}), x \in V = {w_{1}, \dots, w_{∣ V ∣}}

从另一个角度讲，语言模型可以给出一段文字的概率。因为：

P (x^{(1)}, \dots, x^{(T)}) = P (x^{(1)}) \times P (x^{(2)} ∣ x^{(1)}) \times \dots \times P (x^{(T)} ∣ x^{(T - 1)}, \dots, x^{(1)}) = t = 1 \prod T P (x^{(t)} ∣ x^{(t - 1)}, \dots, x^{(1)})

n-gram Language Model 是一种最简单的语言模型。它只通过每个单词的前 $n - 1$ 个单词来预测该单词，即将单词预测简化为一个马尔可夫过程，进而通过条件概率公式使用频率预测概率：

P (x^{(t + 1)} ∣ x^{(t)}, \dots, x^{(1)}) = P (x^{(t + 1)} ∣ x^{(t)}, \dots, x^{t - n + 2}) = \frac{P ( x ^{(t + 1)} , x ^{(t)} , \dots , x ^{t - n + 2} )}{P ( x ^{(t)} , \dots , x ^{t - n + 2} )} \approx \frac{C o u n t ( x ^{(t + 1)} , x ^{(t)} , \dots , x ^{t - n + 2} )}{C o u n t ( x ^{(t)} , \dots , x ^{t - n + 2} )}

n-gram Language Model 的马尔可夫假设严重地限制了模型的语义理解能力，因此我们需要构造一种可以输入文本任意长，关键词在不同位置出现都等价的语言模型。

在上述的向前传播过程中，每一位置 $t$ 的单词预测都会产生误差。设模型预测分布为 $\overset{y}{^}^{(t)}$ ，实际分布为 $y^{(t)}$ (one-hot)，使用交叉信息熵衡量误差：

J^{(t)} (θ) = CE (\overset{y}{^}^{(t)}, y^{(t)}) = - w \in V \sum y_{w}^{(t)} lo g \overset{y}{^}_{w}^{(t)} = - lo g \overset{y}{^}_{x_{t + 1}}^{(t)}

模型在一个单词序列上的平均误差为：

J (θ) = \frac{1}{T} t = 1 \sum T J^{(t)} (θ) = - \frac{1}{T} t = 1 \sum T lo g \overset{y}{^}_{x_{t + 1}}^{(t)}

考虑模型的反向传播，在计算 $\partial J / \partial W_{h}$ 的时候，需要层层计算到最初的 $W_{h}$ 层，再将每一层的梯度求和：

\frac{\partial J ^{(t)}}{\partial W _{h}} = i = 1 \sum t \frac{\partial J ^{(t)}}{\partial W _{h}}_{(i)}

这在传播链路过长（单词序列过长）的时候会出现问题，如 (为简化计算，假设不套用非线性的sigmoid函数)：

\frac{\partial J ^{(4)}}{\partial h ( 1 )} = \frac{\partial h _{2}}{\partial h _{1}} \cdot \frac{\partial h _{3}}{\partial h _{2}} \cdot \frac{\partial h _{4}}{\partial h _{3}} \cdot \frac{J ^{(4)}}{\partial h _{4}} = \frac{\partial J ^{(4)}}{\partial h _{4}} W_{h}^{3}

可以观察到出现了 $W_{h}$ 的高次方项。即若 $W_{h}$ 的特征值小于1，则梯度会呈次方衰减，称为梯度消失；若大于1，则梯度会呈次方增长，称为梯度爆炸

如果得到的梯度太大，则将其缩放到长度阈值。

在原有的RNN基础上加上记忆层 (Cell Layer, c)，并通过门 (gates) 来控制记忆的存留，更新与使用。

f^{(t)} = σ (W_{f} h^{(t - 1)} + U_{f} x^{(t)} + b_{f})

i^{(t)} = σ (W_{i} h^{(t - 1)} + U_{i} x^{(t)} + b_{i})

o^{(t)} = σ (W_{o} h^{(t - 1)} + U_{o} x^{(t)} + b_{o})

对于每一个输入单词，更新流程如下：

\tilde{c}^{(t)} = tanh (W_{c} h^{(t - 1)} + U_{c} x^{(t)} + b_{c})

c^{(t)} = f^{(t)} \circ c^{(t - 1)} + i^{(t)} \circ \tilde{c}^{(t)}

h^{(t)} = o^{(t)} \circ tanh c^{(t)}

LSTM模型在经过一些优化之后，被成功应用于神经机器翻译领域