Data Transform

老师,

以下有一道关于data transform的问题向您提问:

为了reduce skewness, 对Y(price)做了log处理。coding如下:


但是更新新的data base后,笔者就开始train model,coding如下:

我的问题是,笔者只对Y(price)一个depend variable做了log 处理,却没有对其他任何independent variable做任何处理就开始train model这样所有的features不在同一个scale下是合理的吗?

我认为这里的做法是可以的,没有任何问题。首先,对label的数据处理与对feature的处理完全是互不相干的两件事情。这里对label做log变换,目的是让label的方差更加稳定,同时让label的分布更加接近正态分布,便于后续的建模工作。当然你也可以对feature做normalization or log变换,这两者相互之间没有影响。只要你之后在inference阶段,记得也要把feature or output label做对应的变换,就可以了。

好的 十分感谢老师的解答