假设有一个新的用于uber eats的ETA的算法, 需要对该feature进行estimate。这里举例business metric,日订单量 或者 用户评分。我们知道在设计实验的时候需要控制实验组和对照组的covariates/confounders,比如
region: 繁忙的城市和小城市 对算法的ETA的效果要求不同
用户下单时间的习惯: 早中晚 不同高峰低峰时段对于ETA的预测效果也不同
性别: 女性可能会多下单
年龄: 年轻人可能会多下单
那在实际的ab test design过程中,针对这个case 具体是采用什么样的方法来筛选两组实验组的population, 以确保两组用户的region,下单时间[早上,中午,下午,晚上]习惯,性别,年龄等属性都有相似的分布?