pandas导入csv文件的方法和参数


4.1 导入外部数据

导入数据主要用到的是Pandas里的read_x()方法, x表示待导入文件的格式。

4.1.1 导入.xlsx文件

在 Excel 中导入.xlsx 格式的文件很简单, 双击打开即可。 在 Python中导入.xlsx文件的方法是read_excel()。

基本导入

win10电脑中的文件路径默认使用\, 这个时候需要在路径前面加一个r( 转义符) 避免路径里面的\被转义。 也可以不加 r, 但是需要把路径里面的所有\转换成/, 这个规则在导入其他格式文件时也是一样的, 我们一般选择在路径前面加r。

指定导入哪个Sheet

.xlsx格式的文件可以有多个Sheet, 你可以通过设定sheet_name参数 来指定要导入哪个Sheet的文件。

除了可以指定具体Sheet的名字, 还可以传入Sheet的顺序, 从0开始计数。

如果不指定sheet_name参数时, 那么默认导入的都是第一个Sheet的文件。

指定行索引 将本地文件导入DataFrame时, 行索引使用的从0开始的默认索引,可以通过设置index_col参数来设置。

index_col表示用.xlsx文件中的第几列做行索引, 从0开始计数。

指定列索引 将本地文件导入DataFrame时, 默认使用源数据表的第一行作为列索引, 也可以通过设置header参数来设置列索引。 header参数值默认为0, 即用第一行作为列索引; 也可以是其他行, 只需要传入具体的那一行即可; 也可以使用默认从0开始的数作为列索引。

指定导入列 有的时候本地文件的列数太多, 而我们又不需要那么多列时, 我们就可以通过设定usecols参数来指定要导入的列。

可以给usecols 参数具体的某个值, 表示要导入第几列, 同样是从0开始计数, 也可以以列表的形式传入多个值, 表示要传入哪些列。

4.1.2 导入.csv文件

在 Excel 中导入.csv 格式的文件和打开.xlsx 格式的文件一样, 双击即可。 而在Python中导入.csv文件用的方法是read_csv()。 直接导入,只需要指明文件路径即可。

指明分隔符号 在Excel和DataFrame中的数据都是很规整的排列的, 这都是工具在后台根据某条规则进行切分的。 read_csv()默认文件中的数据都是以逗号分开的, 但是有的文件不是用逗号分开的, 这个时候就需要用sep=人为指定分隔符号, 否则就会报错。

指明读取行数 假设现在有一个几百兆的文件, 你想了解一下这个文件里有哪些数据, 那么这个时候你就没必要把全部数据都导入, 你只要看到前面几行即可, 因此只要设置 nrows参数即可。

指定编码格式 Python用得比较多的两种编码格式是UTF-8和gbk, 默认编码格式是UTF-8。 我们要根据导入文件本身的编码格式进行设置, 通过设置参数encoding来设置导入的编码格式。

engine指定 当文件路径或者文件名中包含中文时, 如果还用上面的导入方式就会报错。这个错误产生的原因是当调用read_csv()方法时, 默认使用C语言作为解析语言, 我们只需要把默认值C更改为Python就可以了, 如果文件格式是 CSV UTF-8(逗号分隔)(*.csv), 那么编码格式也需要跟着变为utf-8-sig

其他 .csv 文件也涉及行、 列索引设置及指定导入某列或某几列, 设定方法与导入.xlsx文件一致。

相关