一、概述
主成分分析法(PCA)主要应用于数据降维。其思想是使用较少的变量来取代原先较多的变量,以实现节省数据量的效果。需要指出,若原始变量之间互相正交,即线性无关,则主成分分析法没有效果。
二、原理
假定有n个样本,每个样本有p个变量描述,则所有数据构成了一个n*p阶的矩阵X
X = [[dat1],
[dat2],
.....
[datn]]
但我们希望通过q个变量来描述这些数据(q<p),最简单地,可以取之前p个变量的线性组合,记为Z。对于n中的第i个数据,有
Z[i,1] = a[1,1]*x[i,1] + a[1,2]*x[i,2] +...+ a[1,p]*x[i,p
1