[Gradient Boosting Machine]关于负梯度和残差

techie.student.1 · 2021 年12 月 2 日 08:10

课上我们讨论了当loss function是square loss的时候，可以很直接的证明负梯度就是残差值，也就表明我们的基函数拟合在上一轮的残差上就可以最快的减小loss。但是如果loss function不是square loss的时候，我们是不是就只能说他是在负梯度上更新，但是不能说是拟合残差？还是说只是square loss是表现这一特点最直观的，所有的GBM都是在上一轮的残差上做拟合的？谢谢老师！

miao.wang · 2021 年12 月 2 日 08:21

如果GBM使用的 loss 不是squared loss，那么就不再是“拟合残差”。只能通过“在负梯度上更新”来理解后续weak learner的构造过程。

techie.student.1 · 2021 年12 月 2 日 08:22

那一般来说想要实现GBM，如果不像我们notebook里面assume这个loss function是squared loss的话，是不是就不太直观，只能通过take derivative of the specified of the loss function，然后每次更新在负梯度方向是吗？

另一个问题是我们在这个context下所说的loss function是GBM全局的loss function，而不是每一个基函数的loss function，对吗？

miao.wang · 2021 年12 月 2 日 08:22

如果不像我们notebook里面assume这个loss function是squared loss的话，是不是就不太直观，只能通过take derivative of the specified of the loss function，然后每次更新在负梯度方向是吗？

是的。只有squared loss的情况是特别容易直观理解的。

我们在这个context下所说的loss function是GBM全局的loss function，而不是每一个基函数的loss function

是的。这里讨论的是additive modeling这个整体的loss，这才是模型最重要优化的目标。