问题

给定目标变量y(离散取值,如0,1)在特征x的一组取值下的值,求在新的特征变量取值下y属于各个类别的概率

思路

假设函数

使用sigmoid函数(也称logistic函数)将线性组合映射到[0,1]区间:

其中:

解释

  • 表示,即给定x和参数θ下y=1的概率
  • 时,,预测y=1
  • 时,,预测y=0
  • 决策边界的超平面将特征空间分为两个区域

代价函数

不能使用均方误差,因为会导致非凸函数。使用对数似然损失

简化形式:

总代价函数:

最小化代价函数

梯度下降法

梯度计算(注意:形式与线性回归相同但h_θ不同):

矩阵形式:

更新规则:

高级优化算法

  • 共轭梯度法 (Conjugate Gradient):比梯度下降收敛更快
  • BFGS:拟牛顿法,自动选择学习率
  • L-BFGS:有限内存BFGS,适用于大规模问题

多类分类

一对多 (One-vs-All)

对K类问题,训练K个二元分类器:

  • 分类器i:将类别i与其他所有类别区分
  • 预测时选择输出概率最高的分类器对应的类别

优化

特征缩放

与线性回归相同,使用标准化或归一化

正则化

L2正则化(岭回归)

L1正则化(Lasso)

推广

逻辑回归中,输入变量直接作为特征,使得模型的能力有限,可以考虑变换输入变量后再作为特征输入,从而提高模型的能力: