词向量 (Word2Vect)

基本思路

使用单词的上下文（相邻单词）构建语义（词向量）

记全文 $V$ 中共有 $T$ 个单词，第 $i$ 个位置的单词记为 $w_{i}$ ，其语义由k个参数 $θ$ 组成的向量 $u_{w}$ 表达：

作为center word时，单词构成的矩阵为 $V_{n r_w or d s \times k}$
作为outside word时，单词构成的矩阵为 $U_{n r_w or d s \times k}$

使用点乘计算两个单词的相近程度， $p (w_{t + j} ∣ w_{t})$ 表示在 $t$ 位置为 $w_{t}$ 的前提下， $t + j$ 位置为 $w_{t + j}$ 的概率，可以由相近程度计算 (设中心词为c, 外部词为o)：

P (o ∣ c) = so f t ma x (u_{o}^{T} v_{c}) = \frac{exp ( u _{o}^{T} v _{c} )}{\sum _{w \in V} exp ( u _{w}^{T} v _{c} )}

定义单词上下文窗口的大小为 $m$ ，则全文所有单词的“自洽程度”定义为各个单词在其上下文中出现的概率的积：

L ik e l ih oo d = L (θ) = t = 1 \prod T - m \leq j \leq m \prod P (w_{t + j} ∣ w_{t}; θ)

训练的目标就是为每个单词找到合理的词向量 $θ$ ，使得总自洽程度 $L (θ)$ 最大化

代价函数

J (θ) = - \frac{1}{T} lo g L (θ) = - \frac{1}{T} t = 1 \sum T - m \leq j \leq m \sum lo g P (w_{t + j} ∣ w_{t}; θ)

最大化 $L (θ)$ ，只需要最小化 $J (θ)$

代价函数的偏导数

$\frac{\partial J}{\partial v _{c}} = U (\overset{y}{^} - y)$ $\frac{\partial J}{\partial U} = v_{c} (\overset{y}{^} - y)^{T}$

推导：

$J (θ) = - lo g (P (O = o ∣ C = c)) = - lo g (\frac{e x p u _{o}^{T} v _{c}}{\sum e x p u _{w}^{T} v _{c}}) = - u_{o}^{T} v_{c} + lo g (\sum exp u_{w}^{T} v_{c})$ $\frac{\partial J}{\partial v _{c}} = - u_{o} + \frac{1}{\sum e x p ( u _{w}^{T} v _{c} )} \cdot \sum exp (u_{w}^{T} v_{c}) u_{w} = - u_{o} + \sum \overset{y}{^}_{w} u_{w} = - U y + U \overset{y}{^} = U (\overset{y}{^} - y)$
当 $w = o$ 时：
$\frac{\partial J}{\partial u _{w}} = - v_{c} + \frac{1}{\sum exp ( u _{w}^{T} v _{c} )} \cdot exp (u_{w}^{T} v_{c}) v_{c} = - v_{c} + \overset{y}{^}_{w} v_{c} = (\overset{y}{^}_{w} - 1) v_{c}$
当 $w \neq = o$ 时：
$\frac{\partial J}{\partial u _{w}} = \frac{1}{\sum exp ( u _{w}^{T} v _{c} )} \cdot exp (u_{w}^{T} v_{c}) v_{c} = \overset{y}{^}_{w} v_{c}$
综合两种情况：
$\frac{\partial J}{\partial U} = v_{c} (\overset{y}{^} - y)^{T}$

最小化代价函数——随机梯度下降 (Stochastic Gradient Descent, SGD)

优化

使用negative sampling替换softmax代价函数

计算softmax代价函数时需要对所有的 $exp (u_{w}^{T} v_{c})$ 求和，计算量过大。采用随机抽样的方法优化，任意选出一些不相关的词 (negative samples)计算损失。损失函数更新如下：

J_{n e g - s am pl e} (u_{o}, v_{c}, U) = - lo g (s i g m o i d (u_{o}^{T} v_{c})) - k \in {K s am pl e d in d i ces} \sum lo g (s i g m o i d (- u_{k}^{T} v_{c}))

LearningGuide

Explorer

词向量 (Word2Vect)

基本思路

代价函数

最小化代价函数——随机梯度下降 (Stochastic Gradient Descent, SGD)

优化

使用negative sampling替换softmax代价函数

Graph View

Table of Contents