model evaluation on test data

image
老师,model evaluation on test data那跟train data 本身及我们找到的模型有什么关系呢? 有点迷惑。谢谢。

我们的模型是从training data得到的。为了evaluate这些模型在新数据上的预测效果,我们用与training data不同的数据,e.g. validation data or test data, 来做evaluation。这样得到的evaluation result也能包含模型的泛化能力,即在新数据上的预测效果。
你可以复习一下咱们class 7 model evaluation的课程内容。

In machine learning, generalization is a definition to demonstrate how well is a trained model to classify or forecast unseen data.

泛化能力的含义是:虽然模型是根据有限的training data训练出来的,但是这个模型不仅可以在训练数据上给出比较准确的预测,也可以在与training data不同的数据, 比如testing 数据上(也就是model之前没见过的数据上), 给出比较准确的预测。

新来数据的预测效果不需要作比对。我们只用模型在新数据上的效果做evalution。因为模型在“训练出来它的data (i.e. training data)”上效果一般不会差。你上面那个图,就是不同模型在test data上相互之间的比较,我们选择一个最好的模型即可。 不需要再用它们与training data的数据做比对。