课上我们讨论了当loss function是square loss的时候,可以很直接的证明负梯度就是残差值,也就表明我们的基函数拟合在上一轮的残差上就可以最快的减小loss。 但是如果loss function不是square loss的时候,我们是不是就只能说他是在负梯度上更新,但是不能说是拟合残差?还是说只是square loss是表现这一特点最直观的,所有的GBM都是在上一轮的残差上做拟合的?谢谢老师!
如果GBM使用的 loss 不是squared loss,那么就不再是“拟合残差”。只能通过“在负梯度上更新”来理解后续weak learner的构造过程。
那一般来说想要实现GBM,如果不像我们notebook里面assume这个loss function是squared loss的话,是不是就不太直观,只能通过take derivative of the specified of the loss function,然后每次更新在负梯度方向是吗?
另一个问题是我们在这个context下所说的loss function是GBM全局的loss function,而不是每一个基函数的loss function,对吗?
如果不像我们notebook里面assume这个loss function是squared loss的话,是不是就不太直观,只能通过take derivative of the specified of the loss function,然后每次更新在负梯度方向是吗?
是的。只有squared loss的情况是特别容易直观理解的。
我们在这个context下所说的loss function是GBM全局的loss function,而不是每一个基函数的loss function
是的。这里讨论的是additive modeling这个整体的loss,这才是模型最重要优化的目标。