问题
给定目标变量y(离散取值,如0,1)在特征x的一组取值下的值,求在新的特征变量取值下y属于各个类别的概率
思路
假设函数
使用sigmoid函数(也称logistic函数)将线性组合映射到[0,1]区间:
其中:
解释:
- 表示,即给定x和参数θ下y=1的概率
- 当时,,预测y=1
- 当时,,预测y=0
- 决策边界:的超平面将特征空间分为两个区域
代价函数
不能使用均方误差,因为会导致非凸函数。使用对数似然损失:
简化形式:
总代价函数:
最小化代价函数
梯度下降法
梯度计算(注意:形式与线性回归相同但h_θ不同):
矩阵形式:
更新规则:
高级优化算法
- 共轭梯度法 (Conjugate Gradient):比梯度下降收敛更快
- BFGS:拟牛顿法,自动选择学习率
- L-BFGS:有限内存BFGS,适用于大规模问题
多类分类
一对多 (One-vs-All)
对K类问题,训练K个二元分类器:
- 分类器i:将类别i与其他所有类别区分
- 预测时选择输出概率最高的分类器对应的类别
优化
特征缩放
与线性回归相同,使用标准化或归一化
正则化
L2正则化(岭回归):
L1正则化(Lasso):
推广
逻辑回归中,输入变量直接作为特征,使得模型的能力有限,可以考虑变换输入变量后再作为特征输入,从而提高模型的能力:
- 引入中间层变换输入变量:神经网络 (Neural Networks)
- 加入核函数变换输入变量:支持向量机 (SVM)