[Experiment Design] Uber eats ETA算法evaluation

techie.student2 · 2021 年12 月 2 日 08:11

假设有一个新的用于uber eats的ETA的算法, 需要对该feature进行estimate。这里举例business metric，日订单量或者用户评分。我们知道在设计实验的时候需要控制实验组和对照组的covariates/confounders，比如
region: 繁忙的城市和小城市对算法的ETA的效果要求不同
用户下单时间的习惯: 早中晚不同高峰低峰时段对于ETA的预测效果也不同
性别：女性可能会多下单
年龄：年轻人可能会多下单

那在实际的ab test design过程中，针对这个case 具体是采用什么样的方法来筛选两组实验组的population，以确保两组用户的region，下单时间[早上，中午，下午，晚上]习惯，性别，年龄等属性都有相似的分布？

miao.wang · 2021 年12 月 2 日 08:23

我认为无法刻意做到让所有metric都有相似的分布。一般来说我们就直接利用userID做随机分配。在数据量足够大的情况下，应该可以保证大部分的feature都是均匀分布的。只不过如果这个实验对某一个指标的分布非常敏感的话，我们可以刻意地做一些分层sampling, 但那样很可能引起其他feature的bias。如果这是实际工作中的问题或者面经问题的话，可以具体看一下它具体想解决的是什么问题，或者“直接用userID作randomization遇到了什么问题”，这样便于我们进一步讨论解决方案。