第一步引入pandas模块 import pandas as pd
读取文件
默认读取时会跳过空白行。
- 读取csv文件
dataset=pd.read_csv("/share/home/AI/pycaret/datasets/anomaly.csv")
dataset=pd.read_csv("/share/home/AI/pycaret/datasets/anomaly.xls",sep="\t")
#可以通过指定sep来指定文件分隔符 - 读取tab分割文件
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt")
表头/列名
- 默认是指定第1行数据为表头,
注意python的下标从0开始
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=0)
- 手动指定第2行数据作为表头
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=1)
- 不使用表头
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=none)
- 指定外源的列名
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",names=['第1列名字','第2列名字','第n列名字'],header=none)
指定索引列
- 指定第2列作为索引列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=1)
- 指定第2,5列作为索引列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=[1,4])
- 指定某个列名(此处是charges)的列作为索引列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col="charges")
- 指定多个列名(此处是charges)的列作为索引列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=["charges","year"])
- 不指定某列为索引列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=False)
读取部分列
- 读取指定索引的列(此处和列的顺序无关,读取出来的顺序还是原来文件的顺序)
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=[0,2,5,8,1,6])
- 读取包含指定列名的列(和顺序无关)
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=["Col1","Col8","Col7"])
- 读取指定列,并且指定列的顺序(后面是顺序)
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=["Col1","Col8","Col7"])[["Col1","Col8","Col7"]]
- 读取包含指定字符的列
#此处是过滤提取列名包含Gh字符的列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt")
data_filter=dataset.filter(like="Gh")
读取部分行(读取前1000行)
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",nrows=1000)
使用C引擎快速读取,但是后面部分功能函数可能无法使用
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",)
写入csv文件
dataset.to_csv('output.csv', sep='|', header=True, index=False, encoding='utf-8')
网友评论