正负样本数量巨大差别的情况(如CTR预测)如何进行Calibration

Andy · 2022 年7 月 30 日 14:35

对于CTR预测往往click是选小于no-click的，一般大家会进行negative down sampling，训教后再进行calibration，如使用isotonic probability calibration。

请问下老师这种calibration的原理是什么，是如何将down sampling数据学到的模型来扩展到符合真实distribution的情况？不是很理解这种过程是如何进行的。
有没有别的calibration方法？
如果不做down sampling，应该如何进行calibration，或者说如何使训教得到的模型更加贴近真实的预测？如果说100000个 sample里只有20个click，甚至于我们都可以直接predict 0也可以取得很好的AUC啊？
谢谢老师！