问题

降维动机

  • 数据压缩:减少存储空间和计算时间
  • 数据可视化:将高维数据投影到2D或3D空间
  • 去除冗余特征:消除线性相关的特征

核心思想

寻找一个低维子空间,使得数据投影到该子空间上时,投影误差最小化方差最大化

算法步骤

数据预处理

  1. 均值归一化

  2. 特征缩放

PCA算法

  1. 计算协方差矩阵

  2. 奇异值分解

    其中U的列向量为主成分方向

  3. 选择前k个主成分

  4. 数据投影

数据重构

从低维数据近似重构原始数据:

注意:重构数据维度与原始数据相同,但信息有所损失

优化

主成分个数选择

选择k使得保留的方差比例达到阈值(如99%):

从k=1开始尝试,直到满足方差保留要求