不同market下的ML模型

techie.student.1 · 2021 年12 月 2 日 07:53

场景：需开发一个fraud detection系统对欧洲10国market的某个网站的交易数据进行欺诈检测。

这里assumption会是不同国家可能会存在消费行为的shift

那么建一个model，这个model也take as input了customer profile (include country)，所取得的效果

和

分别对每个market建一个model，features基本也都一样，得到的效果

有何区别？
pros and cons？

我的个人想法是如果不同market间的用户行为是non-linear separable的话，用tree-based model效果就是一样的，但用logistic regression的话如果只有一个model只能做到全局最优但是对于每个market细分来看performance，却不一定是最优的；如果不同market间的用户行为是很相似地linear separable的话，那么不论是1个总的model还是10个model的最终效果是很相似的。

不知道我的想法对不对，请同学指正

miao.wang · 2021 年12 月 2 日 08:29

类似问题我在不同use case的应用场景下遇到过多次。如果从理论角度考虑这个问题，那么你说的是对的：一个tree-based model的效果应该与“每个market都建一个model”的效果是非常接近的。理论上，使用一个Model来take customer profile，甚至有可能学习到跨地区的用户的行为的一些共性，模型效果甚至有可能好于“每个market都建一个model”的方法。
但是，在实际应用中，我们经常会发现，使用“一个tree-based model”的效果比“每个market都建一个model”要差。可能的原因是：不同market的数据量不同，且数据分布有很大区别。它会导致这个“tree-based model”总结出来的规律，会被少数market的情况dominate，因此在其他market上效果不好。因此到最后效果是否一定好，还是需要实验的检验。在面试的时候，可以把这些可能性都讨论一下。
logistic regression作为广义线性模型，建模能力不如tree-based model这种非线性模型。对于我们讨论的这个case, 应该非线性关系还是很强的，用比较复杂的nonlinear model效果应该好一些

techie.student.1 · 2021 年12 月 2 日 08:39

谢谢老师的回答！

再追问一下，如果存在不同市场的数据分布有区别的前提下，且如果只用一个model来做的话，理论上logistic regression的效果非常大概率是没有tree-based model好的对么

miao.wang · 2021 年12 月 2 日 08:41

logistic regression作为广义线性模型，建模能力不如tree-based model这种非线性模型。对于我们讨论的这个case, 应该非线性关系还是很强的，用比较复杂的nonlinear model效果应该好一些。