為什麼boosting著重減少bias?

不太懂為什麼boosting著重減少bias,因為模型相對於decision tree較複雜嗎? 這裡說的減少bias是跟單個decision tree比嗎? 另外overfitting的時候,variance大,bias小,這時再讓模型更為複雜,會不會bias沒有減少太多,而variance增加更多??

这个总结并没有严格的数据证明,只是宏观上对两类模型区别的理解。boosting model注重于(在不严重导致overfitting的情况下)提高模型的复杂度,因此它是focus在reduce bias的。而bagging model并没有提高模型复杂度,它的思想是通过向模型中注入随机性来reduce variance, 从而减小bias. 我们给出这个总结,是因为有同学在面试时遇到过类似问题。至于你提到的,“boosting是否会导致overfitting, error反而增大”的问题,这确实是会出现的。这就是为什么我们在课上提到“bagging model不需要复杂调参,效果就不错。而boosting model需要仔细调参,否则可能效果不如bagging model,甚至不如单个decision tree。但如果调参做的好,boosting model的best performance是会优于bagging model的。”

謝謝老師的回答,我也是看到面經問到這部分

問題: "GBDT和random forest哪個bias更高? 哪個容易產生high bias? "

如果答說"boosting model提高模型複雜度,因此著重減少bias,所以bias較random forest低",這樣的回答可以嗎? 感覺上沒有正面回答問題

還是答說"random forest因為每個tree都做了sampling,如果sampling沒做好,或剛好都sample到outlier,這樣bias會高,所以比較有可能比GBDT的bias高",但這是沒做好的情況,如果sampling做得很好,bias還會比較高嗎?

或者in general這兩個model其中一個的bias就是比較高,而不該討論random forest的sampling沒做好的特殊情況? 那哪個bias會比較高?

对于,

問題: "GBDT和random forest哪個bias更高? 哪個容易產生high bias? "

我建议还是参考我在这个thread前面给出的建议,也是咱们在课上讲的总结。如果在没有context的情况下直接回答这个问题,我认为random forest更容易产生high bias,原因就是我前面讲的,random forst与GBDT相比,模型复杂度相对低一些。而bias都是由于“模型复杂度不足以来描述数据中的规律”导致的。