问题
给定目标变量y在特征x的一组取值下的值,求变量y关于特征x的函数关系,其中称为假设函数(默认为线性关系)
思路
假设函数
假设函数为,其中为偏置项(bias),为权重
代价函数
使用均方误差(Mean Squared Error, MSE)作为代价函数来衡量假设函数的准确程度:
矩阵形式为:
其中:
最小化代价函数
批量梯度下降法 (Batch Gradient Descent)
随机初始化,每次沿着梯度相反的方向(负梯度方向)行进一小步,直至达到步数限制或收敛:
其中学习率,梯度为:
矩阵形式:
正规方程法 (Normal Equation)
通过令梯度为零直接求解最优参数:
注意事项:
- 当不可逆时,通常是因为特征线性相关或特征数量大于样本数量
- 解决方法:删除冗余特征、使用正则化、或使用伪逆矩阵
梯度下降 vs 正规方程:
- 梯度下降:适用于大数据集,需要选择学习率
- 正规方程:适用于小数据集(n < 10000),无需迭代但计算复杂度为O(n³)
优化
正则化 (Regularization)
当模型复杂度过高时可能出现过拟合。通过对参数(除外)添加惩罚项来缓解:
岭回归 (Ridge Regression, L2正则化):
Lasso回归 (L1正则化):
其中为正则化参数:
- :无正则化
- 太大:可能导致欠拟合
- 适中:在偏差和方差之间取得平衡