Model Error的公式理解问题

  1. 1)Model Error 在这里为什么被写成了E_D[(f(x;D)-y)^2],为什么会有个平方?这样不就算成方差了吗?不应该是E_D[f(x;D)-y]吗

1.2)为什么Error不是mean square error就等于三个平方相加?Error不应该不带平方号吗
2. Model Error这些计算都是针对一个点而讨论的吗?如果是多个点,每个点又有多组model,整体error就没法算;但如果只讨论一个点,好像又意义不大。

  1. 这里的E_D[f(x;D)-y)^2]并不是Error. 而是Error在model space D里面的expectation (i.e. 均值). 在这里我们用的是Squared Error来描述Error, 因此在这个式子中,Error是 (f(x)-y)^2. 对于error的表示形式,可以有很多种, 我们可以用|f(x) - y|来表示error, 也可以用 f(x)-y 不加绝对值符号来表示error, 也可以用(f(x)-y)^2来表示error.
  2. 严格来说,Model Error就是指针对一个点(x,y)的error. mean squared error是很多个squared error的平均, 这就是多个点error的一个均值了。

这里的error也是squared error吧?要不然后面bias之类的都是平方,前面的error不可能是非平方?

那上下两图为什么还会有噪声的差别呢?

第一个公式E_D(Error)没有规定Error的具体形式,因此有irreducible error term. 第二个公式中,我们规定“we choose to use squared error”, 因此根据公式推导,irreducible error term就不存在了。这件事情在课上说过多次。

“MSE是很多个model space 里的model针对一个点的squared error的平均吧?”我没说过这句话,不知道你是从哪里了解到的这个观点。

MSE中的mean, 是对于多个数据点产生的error的mean, 和model space中我们讲到的内容不同。Model space概念中,我们还是研究的单个数据点的error,当然,我们可以把研究的单个数据点的error,在多个数据上再累加,再取平均,那就是另外的事情了,即 mean_m[E_D(error_i)].

公式里写的E_D(Error)您上课讲的时候说指的是error在model space的期望呀? 您上课讲这个E_D(Error)的意义的时候,举了(4000,30)的例子,那我理解涉及到model space的话,看error都是一个点?

加上这一页ppt最下面的公式(bias^2+variance)的前提是使用mean square error,其实E_D(Error)这个表达式的意义,就是某点在model space上的square error,然后取期望、也就是取mean?

这里CONTEXT就是在您的PPT上同时出现了“某点error对于Model Space的期望”和“用mean square error”。前文您说的是MSE是多个点,Model Space的讨论是单个点,那对于这部分,讨论的到底是单个点还是多个点呢?

  1. 在讲model error含义的课程中,我们始终都是在讨论一个数据点, e.g. (4000, 30)的 error。在单一点上之所以有多个error取值,是因为model space中model的不同变化。这里的expectation of model space, 确实是期望,确实也可以被理解为"mean squared error". 但是绝大多数情况下,我们说MSE的时候,都是指另一个语境:在model evaluation的时候,用同一个model, 对不同的数据点计算error, 然后取平均。之所以没有人会在“expectation of model space”的语境下用MSE的概念, 是因为,E_D(Error)这个统计量我们一般无法计算出来,只是用来帮我们理解error的含义的,这件事情咱们课上和大家介绍过。
  2. 再强调一遍,“square error”和“mean square error”是有区别的。 “加上这一页ppt最下面的公式(bias^2+variance)的前提是使用mean square error”这句话是错的。这里前提是使用square error, 不是mean square error,你可以再看一下我之前回复的内容。“其实E_D(Error)这个表达式的意义,就是某点在model space上的square error,然后取期望、也就是取mean?” 这句话是对的。相信你已经理解了,我再强调一下,这里取期望,是关于model space取期望,而不是关于多个数据点取期望。这两者有本质区别。而就像我在1里面说的,MSE一般都是指“关于多个数据点取期望”。
  3. 单个点。你可以再读一下我这里的回复