章老师上课时候提到过有时由于timezone变化会导致出现error。如果数据分析时发现date相关信息不对,而且很有可能是由于timezone导致的,那这些数据要保留还是去除还是填一个?这部分有问题的数据量大小(行数多与少)是否会影响清理的策略?
你能举个例子来说一下什么是由timezone导致的date相关信息不对的情况吗?
一般来说如果timezone不match,做一个时区的转换就好了。
比如一个sales 结束日期比开始日期早一天,刚好有十几条数据都是这样,猜测可能是timezone原因,但是做project也没办法验证,所以想知道一般这种在数据清理怎么处理
一般来说,你在做data integrity check的时候就需要把这种数据检查出来了。