老师,关于correlation matrix我有个问题,我是应该把不同量级的数据做归一化和标准化之后再去做cm heatmap 观察线性相关性还是先做cm观察相关性,丢掉一些不相关的变量,之后准备建模的时候再对数据进行归一化处理呢?第二种方法会不会舍弃掉一些因为量级变化小而容易忽略掉的变量呢?谢谢。
Confusion matrix是classification model的evaluation方法。它与数据的归一化或者标准化没有任何关系。它evaluate的是predict label和true label之间的差别,包括true positives, false positives, true negatives, false negatives. 而数据归一化标准化是model feature X的事情。我估计你说的是Correlation Matrix?
对于correlation matrix,一般来说我们都是用Pearson correlation来研究变量之间的线性相关性,它的定义式里面已经针对变量的标准差做了归一化处理,也就是说,我们衡量两个变量相关性的时候,一般都是会通过除以标准差来把correlation value控制在[-1,1],这样才能让不同变量之间的相关性程度有可比性。