1)今天回顾第7课的最后讨论,汪老师说了一个关于与如何处理在测试集中出现新categorical特征的方法。这个特征是一个人看广告的天数(倒数第几天看的广告,倒数第一天,则为1,倒数第二天则为2,。。。)。如果测试集中有个人没看过这个广告,相当于这个信息为空,汪老师的一个解法是赋一个从没出现过的值给这特征,如-1。
我的问题是:如果这个categorical 信息是属于ordinal类型的,那样-1也会被看成和原来已有特征的值是有大小/次序关系,如-1 < 1 < 2 < 3,这样处理是不是还是会有问题?
2)如果是用one-hot 编码的nomical categorical特征,在测试集中出现了多个没有在训练集中出现的categorical特征,一般是怎么处理?
谢谢!