[Experiment Design] Uber eats ETA算法evaluation

假设有一个新的用于uber eats的ETA的算法, 需要对该feature进行estimate。这里举例business metric,日订单量 或者 用户评分。我们知道在设计实验的时候需要控制实验组和对照组的covariates/confounders,比如
region: 繁忙的城市和小城市 对算法的ETA的效果要求不同
用户下单时间的习惯: 早中晚 不同高峰低峰时段对于ETA的预测效果也不同
性别: 女性可能会多下单
年龄: 年轻人可能会多下单

那在实际的ab test design过程中,针对这个case 具体是采用什么样的方法来筛选两组实验组的population, 以确保两组用户的region,下单时间[早上,中午,下午,晚上]习惯,性别,年龄等属性都有相似的分布?

我认为无法刻意做到让所有metric都有相似的分布。一般来说我们就直接利用userID做随机分配。在数据量足够大的情况下,应该可以保证大部分的feature都是均匀分布的。只不过如果这个实验对某一个指标的分布非常敏感的话,我们可以刻意地做一些分层sampling, 但那样很可能引起其他feature的bias。如果这是实际工作中的问题或者面经问题的话,可以具体看一下它具体想解决的是什么问题,或者“直接用userID作randomization遇到了什么问题”,这样便于我们进一步讨论解决方案。