关于feature和data的比例

老师,feature太多,有overfitting的风险,feature太少,有underfitting的风险,请问有没有一个经验上大致的feature/data的比例,比如1/20 - 1/5之类的?

没有大致的经验比例。不过工作中数据都是至少上百万行的,而对于非ads领域的普通模型,几十个features一般来说就差不多够了。当然ads领域也出现过billions级别feature的案例。因此一般来说还是从cross validation的效果,以及与baseline model的比较来做判断。overfitting和underfitting也都是相对的概念。