OA题,两个关于同1个store的CSV,一个是sales,另外一个是traffic. Sales给出了13-18年5月每15分钟的sale额(in cents, e.g., 914,我自己猜是自动售货机); traffic是store的sensor测量出的15-18年5月的每15分钟人头数。目标是预测出接下来一个月的hourly sales和traffic. (可以利用任何external data, 建议使用节假日),自己选择Model (提示了The choice of model is not important). 题目中故意有一些missing values, 要测试做题者 (to understand your assumptions about the missing data, and how you handle them.)
我自己觉得这个题目是个时间序列的预测问题,可以利用数据在时间维度的相关性来进行预测 。不知是否将15min data合并成hourly data比较方便模型预测。 自己能想到的额外的features是day of week, hour of day, 节假日(categorical feature)。可以使用ARMA model或者LSTM? 利用时间序列的相关性来对接下来一个月进行预测。自己对ARMA没什么经验。以lstm为例,觉得可以将问题formulate成已知前m天的houly的数据,然后预测接下来1 hour的数据,刚预测出来的数据可以当作已知一个input time step, 预测下一个hour的数据。每个step的input feature vector可以包含 (hourly sale, hourly traffic, dow, hod, 节假日),输出自然是接下来一个小时的hourly sale和traffic. 但是这样会不会造成 刚开始预测的还比较准,之后就越来越不准?
不知道老师和同学们怎么看?谢谢