有一个gradient boosting model with 100 trees, learning rate 比较大,现在可以去掉第一棵树或者去掉最后一棵树,问两种方法哪一个对模型的performance 影响比较大。 我不太能get 到考察的啥,从GBM原理和learning rate 意义上做了一些阐述。learning rate 比较大猜测比较容易overfitting, 说最后一棵树对model 影响应该不大了。老师这道题考察的到底是啥。。
我认为这道题是在考察对GBM里面gradient这个概念的理解,以及GBM中每棵树之间的关系,反映到数学上就是GBM的loss function. 我认为应该是去掉第一棵树的影响最大。因为之后每一棵树都是在拟合前一棵树的residual (如果是MSE as error的话)。至于"learning rate比较大"这个已知条件,我基本同意你的想法,它是来自于boosting方法中的shrinkage, 目的就是减弱overfitting, 如果optimal model的learning rate大, 说明其实最后的几棵树起到的是过度拟合的效果,说不定删掉后不会影响模型效果。这是我的看法,你如果有不同观点的话欢迎一起讨论。