美文网首页pythonAnacandapandas
Python.pandas里Datafram的基本操作方法

Python.pandas里Datafram的基本操作方法

作者: 龙鹰图腾223 | 来源:发表于2019-06-07 11:03 被阅读279次

    DataFrame的单元格可以存放数值、字符串等,这和excel表很像。同时DataFrame可以设置列名columns与行名index,可以通过像matlab一样通过位置获取数据也可以通过列名和行名定位,比较像matlab里面的table格式。
    下面将对DataFrame的基本操作进行梳理和介绍:(下文中用df代指DataFrame格式)

    1 DataFrame的生成

    方法1:直接生成df

    df=pd.DataFrame([[1,2,3],[2,2,2],[3,3,3]],index=['a','b','c'], columns=['e','f','g'])
    注意value录入要加上【value】
    
    可以生成空的df,默认取值为nan
    df=pd.DataFrame(value,index='',columns='')
    

    方法2:字典转化为df

    dic1={'name':['小明','小红','幽鬼','敌法'],'age':[17,20,5,40],'gender':['男','女','女','男']}
    df=pd.DataFrame(dic1)
    

    方法3:读取txt/excel文件时,输出的就是df格式

    df = pd.read_excel(“file_name.xlsx”)
    

    方法4:从矩阵A转化为df

    df= pd.DataFrame.from_records(A,columns=name)  
    

    注:pd.DataFrame和pd.Series是两个不同的函数

    2 获取行列名称、行高、列高

    df.index    行名称
    df.columns  列名称
    df._info_axis_     列名称
    
    (bike1,bike2)=df.shape  行、列高度
    len(df)    输出的是行高
    df.index.size    行高
    df.columns.size   列高
    

    3 取行、列,切片操作

    取单行后是一个Series,Series有index而无columns
    'Series' object has no attribute 'columns'

    df['x']      取列名为'x'的列,格式为series
    df[['x']]    取列名为'x'的列,格式为Dataframe
    df[['w','z']]    取多列时需要用Dataframe的格式
    df[df.columns[0:3]]    按照索引位置来取列,其实是分两步,先用索引取列名,再用列名取列
    
    df.loc['A']  取行名为'A'的行
    df[0:2]    取索引对应的行
    df.loc[:,['x','z'] ]          #表示选取所有的行以及columns为x,z的列
    
    df['name'].values    取列名为'name'的列的值(取出来的是array而不是series)取单行后是一个Series,Series有index而无columns,可以用name来获取单列的索引
    
    df.head(4)    取头四行
    df.tail(3)    取尾三行
    
    df.iloc[1,1]    根据绝对索引来取值,所谓绝对索引即按照0,1,2这样的人眼顺序来进行排列的原始索引  
    df.iloc[0:3, [0,1]]
    df.iloc[1]   绝对索引第一行
    

    4 查值与替换\删除

    point_table.rename(columns={0:'point_key', 1:'point', 2:'count1', 3:'count2'})     #索引改名称
    
    df[i]=x    #x为常数,全替换;x为向量则要求与替换行/列长度一样
    
    bus=np.where(x2 < 1.5)    #np里相当于matlab里的find
    df.values[bus]=1.66 * df.values[bus]   #根据绝对位置进行部分值的替换
    

    去除nan值:

    df4 = pd.read_csv('4.csv',  encoding='utf-8')
    
    df4 = df4.dropna()  #去除含有nan的行
    
    # 可以通过axis参数来删除含有空数据的全部列
    
    df4 = df4.dropna(axis=1)
    

    5 拼接与拆分

    注意:
    df.append 生成了新的对象
    list.append 直接修改原对象

    df.append()
    
    纵向(上下)拼接和横向(左右)拼接:
    axis=0为纵向拼接
    concat([df1,df2]) 等价于 df1.append(df2)
    
    在axis=1 时为横向拼接 ,此时有
    concat([df1,df2],axis=1) 等价于 merge(df1,df2,left_index=True,right_index=True,how='outer')
    

    如果要合并多个Dataframe,可以用list把几个Dataframe装起来,然后使用concat转化为一个新的Dataframe

    df=pd.concat([train1, train2, train3, train4],axis=1,ignore_index=False)
    

    拆分

    df.groupby['columns_name']
    

    6 计算

    使用sum默认对每列求和,sum(1)为对每行求和
    两个series可以直接进行加减乘除计算

    7 排序

    8 DataFrame在IDLE里的查看

    pd.set_option('display.width', 200) # 横向最多显示多少个字符, 一般80不适合横向的屏幕,平时多用200.

    pd.set_option('display.max_columns', 12)
    pd.set_option('display.max_rows', 10) # 显示的最大行数和列数

    pd.set_option('colheader_justify', 'left') 显示的单元格内容靠左边还是右边

    相关文章

      网友评论

        本文标题:Python.pandas里Datafram的基本操作方法

        本文链接:https://www.haomeiwen.com/subject/igkyxctx.html