[经验分享] Python Pandas读取数据的常用参数设置

techie.student.1 · 2021 年12 月 2 日 07:41

我一般用pandas读取数据的时候，都会加几个argument，希望对大家有用。

sep。如果input是csv，用comma来分割columns，那么default就是。如果input是tsv，是用tab来分割columns，那么sep=’\t’
encoding=‘utf-8’。看大家的机器是什么系统，windows和Linux的default会在处理一些非latin字词（比如有diacritic的）有不一致的问题。Windows不force encoding会出现乱码。Linux没有问题。
header。如果数据第一行是columns的名字们，那么default就会读取。如果第一行直接就是数据，那么需要header=None, 然后加上names=[…]。这个list里面是你想要的columns的名字
na_values。自定义值，你认为可以read成NULL的。
quoting。如果数据本身是文本，里面本身包含引号“”，那么写出时pandas会默认在这个文本的最前面和最后面加上额外的引号“”。不想要这额外的引号，可以在写出时加上quoting=csv.QUOTE_NONE

miao.wang · 2021 年12 月 2 日 07:47

非常感谢同学分享的经验