问题

很多时候目标变量和特征参数的关系不是线性的,需要用多项式来拟合非线性关系

思路

根据Taylor展开的原理,可以通过多项式来进行回归。将特征变量的高次项看作是新的特征,问题就转化为多变量线性回归

例子:对于单个特征x,可以构造:

多特征情况:对于多个特征,可以包含:

  • 多项式项
  • 交互项
  • 混合项

优化

特征缩放的重要性

多项式特征会产生很大的数值差异,特征缩放变得更加重要:

正则化

高次多项式容易过拟合,通常需要使用正则化:

  • 岭回归:适用于保留所有特征
  • Lasso回归:可以自动进行特征选择

选择多项式次数

  • 使用交叉验证选择最优的多项式次数
  • 观察学习曲线判断是否过拟合或欠拟合
  • 一般不超过3-4次,除非有充分的理论依据