什么时候不用AUC作为metrics？

techie.student2 · 2021 年12 月 2 日 07:47

老师，除了课上讲的有时候推荐系统用top-k precision比AUC更好外，还有其它什么情况下AUC不适合作为metrics来衡量model的好坏？

miao.wang · 2021 年12 月 2 日 08:07

对于类似spam email detection这种use case, output的0 or 1 label是我们最终想要的。即使Model AUC很好，如果threshold选的不好，最后output label result的precision, recall还是无法达到要求。在这种情况下，最终评判标准肯定是precision, recall or F1. AUC只是帮助了解model performance的一个工具，不是最终评价标准。如果只想用default 0.5 作为threshold, 不打算去做调整，那么一般来说AUC都比F1更有指示作用。
对于item ranking problem, e.g. 搜索排序，NDCG这种比较advanced的检验ranking quality的metric, 也会比AUC更好一点。这和top-k precision for recsys的情况类似，都是经验结论，不一定适用所有情况。