美文网首页
第4课--使用pandas进行文件读写,数据I-O,数据分析

第4课--使用pandas进行文件读写,数据I-O,数据分析

作者: wo_monic | 来源:发表于2023-09-11 16:41 被阅读0次

第一步引入pandas模块 import pandas as pd

读取文件

默认读取时会跳过空白行。

  • 读取csv文件
    dataset=pd.read_csv("/share/home/AI/pycaret/datasets/anomaly.csv")
    dataset=pd.read_csv("/share/home/AI/pycaret/datasets/anomaly.xls",sep="\t") #可以通过指定sep来指定文件分隔符
  • 读取tab分割文件
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt")

表头/列名

  • 默认是指定第1行数据为表头,
    注意python的下标从0开始
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=0)
  • 手动指定第2行数据作为表头
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=1)
  • 不使用表头
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=none)
  • 指定外源的列名
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",names=['第1列名字','第2列名字','第n列名字'],header=none)

指定索引列

  • 指定第2列作为索引列
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=1)
  • 指定第2,5列作为索引列
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=[1,4])
  • 指定某个列名(此处是charges)的列作为索引列
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col="charges")
  • 指定多个列名(此处是charges)的列作为索引列
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=["charges","year"])
  • 不指定某列为索引列
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=False)

读取部分列

  • 读取指定索引的列(此处和列的顺序无关,读取出来的顺序还是原来文件的顺序)
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=[0,2,5,8,1,6])
  • 读取包含指定列名的列(和顺序无关)
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=["Col1","Col8","Col7"])
  • 读取指定列,并且指定列的顺序(后面是顺序)
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=["Col1","Col8","Col7"])[["Col1","Col8","Col7"]]
  • 读取包含指定字符的列
#此处是过滤提取列名包含Gh字符的列
dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt")
data_filter=dataset.filter(like="Gh")

读取部分行(读取前1000行)

dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",nrows=1000)

使用C引擎快速读取,但是后面部分功能函数可能无法使用

dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",)

写入csv文件

dataset.to_csv('output.csv', sep='|', header=True, index=False, encoding='utf-8')

相关文章

网友评论

      本文标题:第4课--使用pandas进行文件读写,数据I-O,数据分析

      本文链接:https://www.haomeiwen.com/subject/lincfctx.html