[Amazon 面经] Performance degradation

训练好的model应用到production system里面,有下面两种情况:

  1. performance degradation: gradual
  2. performance degradation: sudden drop
    好像问题是大概是什么原因,怎样处理?

Model performance degradation的大部分原因:

  1. model inference serving system出了问题。这就是纯system-level的问题了,比如memory不够了导致无法实时拿到正确的feature数据,等等原因。面试时不需要做过多deep dive。
  2. feature or label distribution与training data不同了。比如,用户行为/用户习惯产生变化导致feature distribution变化,或者 该公司产品受欢迎程度发生变化(由于市场竞争等原因)导致label distribution变化。这个原因造成的degradation应该是一个缓慢的过程, i.e. “gradual”。解决方法就是model retrain,或者建立regular model retraining pipeline。
  3. 公司产品设计/用户体验发生比较大的变化。这个情况与(2)的情况类似,但是它带来的degradation会是更加剧烈且突然的。此时作为负责产品维护的engineer/ds,应该根据具体时间点,分析一下在同一时期公司产品有哪些改动。这些产品改动是否对model有了不同的要求。如果model retraining已经不足以解决问题,那么需要重新设计模型,来适应新的产品/用户体验的要求。
1 个赞

老师,这个retrain的目的是update模型参数吗?

如果只是用新的training data去update model的话,只能更新模型的参数 (parameters)。如果要重新设计模型,那么可以重新做调优,此时就可以更新模型的超参数(hyper-parameters),比如regularization系数,RF中tree的个数、深度,等等。

2 个赞

嗯嗯明白了,谢谢老师!

1 个赞