老师,除了课上讲的有时候推荐系统用top-k precision比AUC更好外,还有其它什么情况下AUC不适合作为metrics来衡量model的好坏?
- 对于类似spam email detection这种use case, output的0 or 1 label是我们最终想要的。即使Model AUC很好,如果threshold选的不好,最后output label result的precision, recall还是无法达到要求。 在这种情况下, 最终评判标准肯定是precision, recall or F1. AUC只是帮助了解model performance的一个工具, 不是最终评价标准。如果只想用default 0.5 作为threshold, 不打算去做调整,那么一般来说AUC都比F1更有指示作用。
- 对于item ranking problem, e.g. 搜索排序,NDCG这种比较advanced的检验ranking quality的metric, 也会比AUC更好一点。这和top-k precision for recsys的情况类似, 都是经验结论, 不一定适用所有情况。