不同market下的ML模型

场景:需开发一个fraud detection系统对欧洲10国market的某个网站的交易数据进行欺诈检测。

这里assumption会是 不同国家可能会存在消费行为的shift

那么建一个model,这个model也take as input了customer profile (include country),所取得的效果

分别对每个market建一个model,features基本也都一样,得到的效果

有何区别?
pros and cons?

我的个人想法是如果不同market间的用户行为是non-linear separable的话,用tree-based model效果就是一样的,但用logistic regression的话如果只有一个model只能做到全局最优 但是对于每个market细分来看performance,却不一定是最优的; 如果不同market间的用户行为是很相似地linear separable的话,那么不论是1个总的model还是10个model的最终效果是很相似的。

不知道我的想法对不对,请同学指正

类似问题我在不同use case的应用场景下遇到过多次。如果从理论角度考虑这个问题,那么你说的是对的:一个tree-based model的效果应该与“每个market都建一个model”的效果是非常接近的。理论上,使用一个Model来take customer profile,甚至有可能学习到跨地区的用户的行为的一些共性,模型效果甚至有可能好于“每个market都建一个model”的方法。
但是,在实际应用中,我们经常会发现,使用“一个tree-based model”的效果比“每个market都建一个model”要差。可能的原因是: 不同market的数据量不同,且数据分布有很大区别。它会导致这个“tree-based model”总结出来的规律,会被少数market的情况dominate,因此在其他market上效果不好。因此到最后效果是否一定好,还是需要实验的检验。在面试的时候,可以把这些可能性都讨论一下。
logistic regression作为广义线性模型,建模能力不如tree-based model这种非线性模型。对于我们讨论的这个case, 应该非线性关系还是很强的,用比较复杂的nonlinear model效果应该好一些

谢谢老师的回答!

再追问一下,如果存在不同市场的数据分布有区别的前提下,且如果只用一个model来做的话,理论上logistic regression的效果非常大概率是没有tree-based model好的对么

logistic regression作为广义线性模型,建模能力不如tree-based model这种非线性模型。对于我们讨论的这个case, 应该非线性关系还是很强的,用比较复杂的nonlinear model效果应该好一些。