在平时看到很多有关feature engineering的blog里都提到Label Encoding会带来potential ordinality即使我们的categorical feature里面是没有这一属性的,直观上是完全可以理解,因为encode之后会从categorical变为[1,2,3,4],那么对应4的类别就会变成其中highest rank的类别。但是这样的影响我们能具体到比如loss function中得到吗?或者说这个ordinality的影响到底体现在哪一部分呢?(这里针对于比较需要做feature enginnering的模型来说,比如linear regression,logistic regression,而不考虑某些decision tree和random forest。)
类似于我们知道对于linear regression来说我们要做feature normalization是因为loss function在gradient descent中会乘上一个x本身,那么就容易理解因为x自身的大小对下降的方向是有影响的,所以做了feature normalization will be better。上述ordinality的影响是不是也可以通过同样的方式看出来呢?