第4课--使用pandas进行文件读写，数据I-O，数据分析

作者: wo_monic | 来源:发表于2023-09-11 16:41 被阅读0次

第一步引入pandas模块 import pandas as pd

读取文件

默认读取时会跳过空白行。

读取csv文件
dataset=pd.read_csv("/share/home/AI/pycaret/datasets/anomaly.csv")
dataset=pd.read_csv("/share/home/AI/pycaret/datasets/anomaly.xls",sep="\t") #可以通过指定sep来指定文件分隔符
读取tab分割文件
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt")

默认是指定第1行数据为表头，
注意python的下标从0开始
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=0)
手动指定第2行数据作为表头
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=1)
不使用表头
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=none)
指定外源的列名
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",names=['第1列名字','第2列名字','第n列名字'],header=none)

指定第2列作为索引列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=1)
指定第2,5列作为索引列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=[1，4])
指定某个列名(此处是charges)的列作为索引列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col="charges")
指定多个列名(此处是charges)的列作为索引列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=["charges","year"])
不指定某列为索引列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=False)

读取指定索引的列(此处和列的顺序无关，读取出来的顺序还是原来文件的顺序)
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=[0,2,5,8,1,6])
读取包含指定列名的列(和顺序无关)
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=["Col1","Col8","Col7"])
读取指定列，并且指定列的顺序(后面是顺序)
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=["Col1","Col8","Col7"])[["Col1","Col8","Col7"]]
读取包含指定字符的列

#此处是过滤提取列名包含Gh字符的列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt")
data_filter=dataset.filter(like="Gh")

dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",nrows=1000)

dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",)

写入csv文件

dataset.to_csv('output.csv', sep='|', header=True, index=False, encoding='utf-8')

本文标题：第4课--使用pandas进行文件读写，数据I-O，数据分析

本文链接：https://www.haomeiwen.com/subject/lincfctx.html