问题

给定目标变量y在特征x的一组取值下的值,求变量y关于特征x的函数关系,其中称为假设函数(默认为线性关系)

思路

假设函数

假设函数为,其中为偏置项(bias),为权重

代价函数

使用均方误差(Mean Squared Error, MSE)作为代价函数来衡量假设函数的准确程度:

矩阵形式为:

其中:

最小化代价函数

批量梯度下降法 (Batch Gradient Descent)

随机初始化,每次沿着梯度相反的方向(负梯度方向)行进一小步,直至达到步数限制或收敛:

其中学习率,梯度为:

矩阵形式:

正规方程法 (Normal Equation)

通过令梯度为零直接求解最优参数:

注意事项

  • 不可逆时,通常是因为特征线性相关或特征数量大于样本数量
  • 解决方法:删除冗余特征、使用正则化、或使用伪逆矩阵

梯度下降 vs 正规方程

  • 梯度下降:适用于大数据集,需要选择学习率
  • 正规方程:适用于小数据集(n < 10000),无需迭代但计算复杂度为O(n³)

优化

正则化 (Regularization)

当模型复杂度过高时可能出现过拟合。通过对参数(除外)添加惩罚项来缓解:

岭回归 (Ridge Regression, L2正则化)

Lasso回归 (L1正则化)

其中为正则化参数:

  • :无正则化
  • 太大:可能导致欠拟合
  • 适中:在偏差和方差之间取得平衡

推广

  1. 多变量推广:多变量线性回归 (Linear Regression with multiple variables)
  2. 高次推广:多项式回归 (Polynomial Regression)