美文网首页
第4课--使用pandas进行文件读写,数据I-O,数据分析

第4课--使用pandas进行文件读写,数据I-O,数据分析

作者: wo_monic | 来源:发表于2023-09-11 16:41 被阅读0次

    第一步引入pandas模块 import pandas as pd

    读取文件

    默认读取时会跳过空白行。

    • 读取csv文件
      dataset=pd.read_csv("/share/home/AI/pycaret/datasets/anomaly.csv")
      dataset=pd.read_csv("/share/home/AI/pycaret/datasets/anomaly.xls",sep="\t") #可以通过指定sep来指定文件分隔符
    • 读取tab分割文件
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt")

    表头/列名

    • 默认是指定第1行数据为表头,
      注意python的下标从0开始
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=0)
    • 手动指定第2行数据作为表头
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=1)
    • 不使用表头
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",header=none)
    • 指定外源的列名
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",names=['第1列名字','第2列名字','第n列名字'],header=none)

    指定索引列

    • 指定第2列作为索引列
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=1)
    • 指定第2,5列作为索引列
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=[1,4])
    • 指定某个列名(此处是charges)的列作为索引列
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col="charges")
    • 指定多个列名(此处是charges)的列作为索引列
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=["charges","year"])
    • 不指定某列为索引列
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",index_col=False)

    读取部分列

    • 读取指定索引的列(此处和列的顺序无关,读取出来的顺序还是原来文件的顺序)
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=[0,2,5,8,1,6])
    • 读取包含指定列名的列(和顺序无关)
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=["Col1","Col8","Col7"])
    • 读取指定列,并且指定列的顺序(后面是顺序)
      dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",usecols=["Col1","Col8","Col7"])[["Col1","Col8","Col7"]]
    • 读取包含指定字符的列
    #此处是过滤提取列名包含Gh字符的列
    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt")
    data_filter=dataset.filter(like="Gh")
    

    读取部分行(读取前1000行)

    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",nrows=1000)

    使用C引擎快速读取,但是后面部分功能函数可能无法使用

    dataset=pd.read_table("/share/home/AI/pycaret/datasets/anomaly.txt",)

    写入csv文件

    dataset.to_csv('output.csv', sep='|', header=True, index=False, encoding='utf-8')
    

    相关文章

      网友评论

          本文标题:第4课--使用pandas进行文件读写,数据I-O,数据分析

          本文链接:https://www.haomeiwen.com/subject/lincfctx.html