美文网首页
【Python】Pandas使用

【Python】Pandas使用

作者: 米兰的小铁匠 | 来源:发表于2020-07-05 13:52 被阅读0次

    pandas是处理excel与csv文件的利器,这次我来聚集一下自己所使用到的方法。

    读取文件

    • 常用
    df_= pd.DataFrame(pd.read_excel("路径"))  # csv文件使用read_csv
    # read_csv的参数skip_blank_lines=True会忽略注释行和空行
    # header默认情况下,对有表头的数据识别第一行作为header(即header=0)
    # 对无表头的数据,则需设置header=None,否则第一行数据被作为表头,也可以指定行为表头,例如:header=4
    # 同时呢,还有encodeing = "", 对文件进行转码读取(需要转码,可能是你的环境有问题)
    # converters = {u'账号信息':str},利用converters 可以使得账号前缀 0不会缺失(字符串)
    # 下同
    
    • 打开一个ecxel文件里的多张表
        df_count = pd.ExcelWriter("路径")        
        df_yue = pd.DataFrame(pd.read_excel("路径",sheet_name="sheet1"))
        df_liushui = pd.DataFrame(pd.read_excel("路径",sheet_name="sheet2"))
    

    处理pandas对象

    • 常用
    # read_html(网页文本)   读取网页html的table表格标签
    pd. read_html(text)
    # shape[0] 读取excel表格行数,shape[1]读取列数;
      df.shape[0]
    # 获取表头列表
      columns_list = list(df)
      print(columns_list)
    # 更改表头
      df.columns = ['A','B','C','D']
    # excel文件的sheet名称列表
      df_sheetnames = pd.ExcelFile(excel_path)
      sheetnames = df_sheetnames.sheet_names
    # iloc[0,0] 获取excel表格的指定数据
      data = df.iloc[i,j]  # 行,列
      # 同时,也是可以更改数据 df.iloc[i,j] = ''
    # 查看是否有重复行
      re_row = df.duplicated()
      print(re_row)
    # 查看去除重复行的数据
      no_re_row = df.drop_duplicates()
      print(no_re_row)
    # 查看基于[物品]列去除重复行的数据
      wp = df.drop_duplicates(['物品'])
      print(wp)
    #整行添加数据
      df.loc[a] = ['', '', '', '', '', '']   # a行数(int),或者也可以填index指定行(str)
    # 读取行
      df.loc[a]  # a行数(int),或者也可以填index指定行(str)
    # 读取列
      df.loc[:,'A']
    # 合并
      df1.append(df2):将df2中的行添加到df1的尾部
      df.concat([df1, df2],axis=1):将df2中的列添加到df1的尾部
      df1.join(df2,on=col1,how='inner'):对df1的列和df2的列执行SQL形式的join
    # 修改字段类型
      df[['two', 'three']] = df[['two', 'three']].astype(float)
    # 在excel中的长数据串前面加入单引号('),可解决数据变成科学计数格式!
    
    • 使用
     # 合并文件,列合并
    lst = [df1, df2]
    result = pd.concat(lst,axis=1)   axis=1列索引,axis=0行索引
    writer = pd.ExcelWriter(filename)
    result.to_excel(writer,index=False)
    writer.save()
    
    • 不常用
    # 数据统计
    df.describe():查看数据值列的汇总统计
    df.mean():返回所有列的均值
    df.corr():返回列与列之间的相关系数
    df.count():返回每一列中的非空值的个数
    df.max():返回每一列的最大值
    df.min():返回每一列的最小值
    df.median():返回每一列的中位数
    df.std():返回每一列的标准差
    
    # 数据处理
    df[df[col] > 0.5]:选择col列的值大于0.5的行
    df.sort_values(col1):按照列col1排序数据,默认升序排列
    df.sort_values(col2, ascending=False):按照列col1降序排列数据
    df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列数据
    df.groupby(col):返回一个按列col进行分组的Groupby对象
    df.groupby([col1,col2]):返回一个按多列进行分组的Groupby对象
    df.groupby(col1)[col2]:返回按列col1进行分组后,列col2的均值
    df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表
    df.groupby(col1).agg(np.mean):返回按列col1分组的所有列的均值
    data.apply(np.mean):对DataFrame中的每一列应用函数np.mean
    data.apply(np.max,axis=1):对DataFrame中的每一行应用函数np.max
    
    # 数据清理
    df[df[col] > 0.5]:选择col列的值大于0.5的行
    df.sort_values(col1):按照列col1排序数据,默认升序排列
    df.sort_values(col2, ascending=False):按照列col1降序排列数据
    df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列数据
    df.groupby(col):返回一个按列col进行分组的Groupby对象
    df.groupby([col1,col2]):返回一个按多列进行分组的Groupby对象
    df.groupby(col1)[col2]:返回按列col1进行分组后,列col2的均值
    df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表
    df.groupby(col1).agg(np.mean):返回按列col1分组的所有列的均值
    data.apply(np.mean):对DataFrame中的每一列应用函数np.mean
    data.apply(np.max,axis=1):对DataFrame中的每一行应用函数np.max
    

    写入文件

    • 常用
      df.to_excel("路径",index=None)    # csv文件使用to_csv
    
    • 在同一个文件写入多张表
         writer = pd.ExcelWriter("路径")
         df_yue.to_excel(writer, sheet_name='sheet1',index=None)    
         df_liushui.to_excel(writer,'sheet2',index=None)
         writer.save()
    


    小操作

    # 分割字符串
        text_data = text.split('/')
    # 去除字符串空格
        str.strip()
    # re提取字符串中的数字 
         text = re.sub("\D","",text_data[1])
        print(text)
    # 在字符串里插入字符      
       '#prdList__ct{}_accList__ctl0_accNam'.format('11')
    # 昨天日期
        yesterday = (datetime.date.today() + datetime.timedelta(days = -1)).strftime("%Y-%m-%d")
    
    
    os操作
    os.path.isfile()和os.path.isdir()函数分别检验给出的路径是一个文件还是目录。
    os.path.exists()函数用来检验给出的路径是否真地存在
     os.path.exists(path):文件或文件夹是否存在,返回True 或 False。
    os.path.basename(path):返回文件名
    os.mkdir(path):创建文件夹
    os.remove(path)函数用来删除一个文件。
    os.listdir(path)返回指定目录下的所有文件和目录名。
    os.path.getsize(name):获得文件大小,如果name是目录返回0L
    os.path.abspath(name):获得绝对路径
    os.path.normpath(path):规范path字符串形式
    os.path.split(path) :将path分割成目录和文件名二元组返回。
    os.path.splitext():分离文件名与扩展名
    os.path.join(path,name):连接目录与文件名或目录;使用“\”连接
    os.path.dirname(path):返回文件路径
    
    ========================================================================================
    
    os.sep可以取代操作系统特定的路径分隔符。windows下为 “\\”
    
    os.name字符串指示你正在使用的平台。比如对于Windows,它是'nt',而对于Linux/Unix用户,它是'posix'。
    
    os.getcwd()函数得到当前工作目录,即当前Python脚本工作的目录路径。
    
    os.getenv()获取一个环境变量,如果没有返回none
    
    os.putenv(key, value)设置一个环境变量值
    
    os.listdir(path)返回指定目录下的所有文件和目录名。
    
    os.remove(path)函数用来删除一个文件。
    
    os.system(command)函数用来运行shell命令。
    
    os.linesep字符串给出当前平台使用的行终止符。例如,Windows使用'\r\n',Linux使用'\n'而Mac使用'\r'。
    os.curdir:返回当前目录('.')
    os.chdir(dirname):改变工作目录到dirname
    ========================================================================================
    
    glob.glob同时获取所有的匹配路径
    for im in glob.glob(folder + '/*.jpg'): 
    


    迷惑青年

    相关文章

      网友评论

          本文标题:【Python】Pandas使用

          本文链接:https://www.haomeiwen.com/subject/eacvqktx.html