CART tree做regression用的metric

CART tree在分叉的時候用的metric是gini impurity和gini gain,我可以理解在做classification的時候,gini衡量的是取錯的概率,但當CART tree做regression的時候,該怎麼理解"取錯的概率"?

另外,regression tree用的metric是square loss,所以是不是有三種algorithms

  1. ID3, metric是entropy,只能做classification
  2. CART, metric是gini, 可做classification和regression
  3. Regression tree, metric是square loss,只能做regression

還是說CART tree在做classification的時候metric是gini,在做regression的時候metric是square loss,所以2和3是合併的?

在regression tree中, training阶段,每个叶子节点对应的是它包含的训练数据的输出值的均值。在inference阶段, 叶子节点的数值对应的就是prediction value.

对于classification tree, CART, or ID3 算法,它们的区别在于选用的metric (gini, entropy)以及Tree的分支个数。而对于regression tree, 我们用的metric都是MSE or MAE,因此唯一的区别就是,这个tree是二叉树还是多叉树。如果是二叉树,就是CART. BTW, CART也可以作为regression tree使用,只不过metric从gini变成了MSE or MAE

謝謝老師,我明白了!!! 所以說regression也分為二叉和多叉

  • Classification tree
    • 二叉: gini (CART)
    • 多叉: entropy (ID3)
  • Regression tree
    • 二叉: MSE/MAE (CART)
    • 多叉: MSE/MAE