神经网络

问题

当特征数量很大时，传统算法计算复杂度过高；当需要学习复杂非线性关系时，多项式特征会导致特征爆炸

神经网络由多层神经元组成：

设第 $l$ 层有 $s_{l}$ 个神经元，激活函数为 $g (z)$ ：

a^{(l + 1)} = g (Θ^{(l)} a^{(l)})

其中：

详细计算过程：

z^{(l + 1)} = Θ^{(l)} a^{(l)} (加上 bias 项)

a^{(l + 1)} = g (z^{(l + 1)})

对于K类分类问题：

J (Θ) = - \frac{1}{m} i = 1 \sum m k = 1 \sum K [y_{k}^{(i)} lo g (h_{Θ} (x^{(i)}))_{k} + (1 - y_{k}^{(i)}) lo g (1 - (h_{Θ} (x^{(i)}))_{k})]

+ \frac{λ}{2 m} l = 1 \sum L - 1 i = 1 \sum s_{l} j = 1 \sum s_{l + 1} (Θ_{ji}^{(l)})^{2}

前向传播：计算所有层的激活值
计算输出层误差： $δ^{(L)} = a^{(L)} - y$
反向传播误差： $δ^{(l)} = (Θ^{(l)})^{T} δ^{(l + 1)} \cdot g^{'} (z^{(l)})$
计算梯度： $\frac{\partial J}{\partial Θ _{ij}^{(l)}} = \frac{1}{m} a_{j}^{(l)} δ_{i}^{(l + 1)} + λ Θ_{ij}^{(l)} (j \neq = 0)$ $\frac{\partial J}{\partial Θ _{i 0}^{(l)}} = \frac{1}{m} a_{0}^{(l)} δ_{i}^{(l + 1)} (bias 项)$
之后可使用梯度下降法处理

随机初始化：避免对称性破缺

Θ_{ij}^{(l)} \sim Uniform [- ϵ, ϵ]

其中 $ϵ = \frac{6}{s _{l} + s _{l + 1}}$

使用数值方法验证反向传播的正确性：

\frac{\partial J}{\partial Θ} \approx \frac{J ( Θ + ϵ ) - J ( Θ - ϵ )}{2 ϵ}