[经验分享] Python Pandas读取数据的常用参数设置

我一般用pandas读取数据的时候,都会加几个argument,希望对大家有用。

完整的api在这里:pandas.read_csv — pandas 1.2.4 documentation

  • sep。如果input是csv,用comma来分割columns,那么default就是。如果input是tsv,是用tab来分割columns,那么sep=’\t’
  • encoding=‘utf-8’。看大家的机器是什么系统,windows和Linux的default会在处理一些非latin字词(比如有diacritic的)有不一致的问题。Windows不force encoding会出现乱码。Linux没有问题。
  • header。如果数据第一行是columns的名字们,那么default就会读取。如果第一行直接就是数据,那么需要header=None, 然后加上names=[…]。这个list里面是你想要的columns的名字
  • na_values。自定义值,你认为可以read成NULL的。
  • quoting。如果数据本身是文本,里面本身包含引号“”,那么写出时pandas会默认在这个文本的最前面和最后面加上额外的引号“”。不想要这额外的引号,可以在写出时加上quoting=csv.QUOTE_NONE

非常感谢同学分享的经验 :+1: