PCA方差的理解

做PCA時,我們希望數據投影到新的空間之後,數據間分散程度最大,而分散程度用方差來衡量,這部分可以理解。但方差為什麼是內積(投影)的方差呢?

image

PCA的优化目标,就是要让原数据投影到新空间之后的信息的分散程度最大。而"原数据投影到新空间"这个步骤,就是原数据x向新空间w做投影。我们计算的方差当然应该是这个投影的方差。

这里的方差也可以认为是投影之后的点的方差。虽然投影本身是一个标量,但是投影方向是确定的。投影线段长度为2,也可以认为是投影到以w为横轴后的坐标是(2,0)。如果我们算这些点的方差,用的也是它们的坐标,坐标的含义就是他们在对应的坐标系里面相对坐标轴原点的距离。这两者意思是一样的。