汪老师,您在讲model bias & variance的时候提到了对于同样的X, train data 变化了,predicted y就也会变化因为parameter estimation在不同的train data不同。请问怎么理解这个同样的X? 是指的同样的feature么 (e.g., age, gender)?如果连feature的值也都是固定的,那就等于model就固定了也不会有变化了。谢谢!
这里说的"同样的X",指的是model做prediction的时候要预测的数据X,它不同于你说的 “training data”。当我们讨论model bias & variance的时候,我们用model space的概念去理解模型error。也就是说,当training data有变化的时候,对应得到的模型就有变化。那么对于一个固定的要预测的数据X,不同的模型就会得到不同的output Y。
好的 谢谢。所以这个error指的是test error/generation error是吧。那一般不会对train error 进行分析,做variance-bias decomposition之类的?
研究training data的variance是没有太大意义的。核心原因在于:training data是有限的,所以training error里面的variance就没啥意义了,因为它的generalization最多拓展到你现有的这些training data。