老师我昨天课上问了下面这个公式算sample mean 的Var 是不是需要 sample 之间互相独立。 我问这个问题的背景其实是有道面试题是问random forest 为什么可以降低variance. random forest 的tree 之间应该还是不完全独立的,所以不能完全用这个公式? 感觉random forest 的variance 就介于sigma^2 and sigma^2/k 之间了。怎么最好的解释random forest 可以降低variance呢?
random forest模型我们在后续课程中会讲解。至于bagging method为什么可以使得Model variance减小,据我了解,现在在学术界对这个问题还没有一个严格的数学解释。但是我们可以粗略地把它理解为:random forest通过bagging和data sampling两个方法,向model framework中引入了随机性(randomness), 然后再通过去均值的方法,使得单个training data对于模型的影响大幅减弱,提高了模型的泛化能力 (generalization).