正负样本数量巨大差别的情况(如CTR预测)如何进行Calibration

对于CTR预测往往click是选小于no-click的,一般大家会进行negative down sampling,训教后再进行calibration,如使用isotonic probability calibration。

  1. 请问下老师这种calibration的原理是什么,是如何将down sampling数据学到的模型来扩展到符合真实distribution的情况?不是很理解这种过程是如何进行的。
  2. 有没有别的calibration方法?
  3. 如果不做down sampling,应该如何进行calibration,或者说如何使训教得到的模型更加贴近真实的预测?如果说100000个 sample里只有20个click,甚至于我们都可以直接predict 0也可以取得很好的AUC啊?
    谢谢老师!