问题
降维动机:
- 数据压缩:减少存储空间和计算时间
- 数据可视化:将高维数据投影到2D或3D空间
- 去除冗余特征:消除线性相关的特征
核心思想
寻找一个低维子空间,使得数据投影到该子空间上时,投影误差最小化或方差最大化
算法步骤
数据预处理
-
均值归一化:
-
特征缩放:
PCA算法
-
计算协方差矩阵:
-
奇异值分解:
其中U的列向量为主成分方向
-
选择前k个主成分:
-
数据投影:
数据重构
从低维数据近似重构原始数据:
注意:重构数据维度与原始数据相同,但信息有所损失
优化
主成分个数选择
选择k使得保留的方差比例达到阈值(如99%):
从k=1开始尝试,直到满足方差保留要求