美文网首页pythonAnacandapandas
Python.pandas里Datafram的基本操作方法

Python.pandas里Datafram的基本操作方法

作者: 龙鹰图腾223 | 来源:发表于2019-06-07 11:03 被阅读279次

DataFrame的单元格可以存放数值、字符串等,这和excel表很像。同时DataFrame可以设置列名columns与行名index,可以通过像matlab一样通过位置获取数据也可以通过列名和行名定位,比较像matlab里面的table格式。
下面将对DataFrame的基本操作进行梳理和介绍:(下文中用df代指DataFrame格式)

1 DataFrame的生成

方法1:直接生成df

df=pd.DataFrame([[1,2,3],[2,2,2],[3,3,3]],index=['a','b','c'], columns=['e','f','g'])
注意value录入要加上【value】

可以生成空的df,默认取值为nan
df=pd.DataFrame(value,index='',columns='')

方法2:字典转化为df

dic1={'name':['小明','小红','幽鬼','敌法'],'age':[17,20,5,40],'gender':['男','女','女','男']}
df=pd.DataFrame(dic1)

方法3:读取txt/excel文件时,输出的就是df格式

df = pd.read_excel(“file_name.xlsx”)

方法4:从矩阵A转化为df

df= pd.DataFrame.from_records(A,columns=name)  

注:pd.DataFrame和pd.Series是两个不同的函数

2 获取行列名称、行高、列高

df.index    行名称
df.columns  列名称
df._info_axis_     列名称

(bike1,bike2)=df.shape  行、列高度
len(df)    输出的是行高
df.index.size    行高
df.columns.size   列高

3 取行、列,切片操作

取单行后是一个Series,Series有index而无columns
'Series' object has no attribute 'columns'

df['x']      取列名为'x'的列,格式为series
df[['x']]    取列名为'x'的列,格式为Dataframe
df[['w','z']]    取多列时需要用Dataframe的格式
df[df.columns[0:3]]    按照索引位置来取列,其实是分两步,先用索引取列名,再用列名取列

df.loc['A']  取行名为'A'的行
df[0:2]    取索引对应的行
df.loc[:,['x','z'] ]          #表示选取所有的行以及columns为x,z的列

df['name'].values    取列名为'name'的列的值(取出来的是array而不是series)取单行后是一个Series,Series有index而无columns,可以用name来获取单列的索引

df.head(4)    取头四行
df.tail(3)    取尾三行

df.iloc[1,1]    根据绝对索引来取值,所谓绝对索引即按照0,1,2这样的人眼顺序来进行排列的原始索引  
df.iloc[0:3, [0,1]]
df.iloc[1]   绝对索引第一行

4 查值与替换\删除

point_table.rename(columns={0:'point_key', 1:'point', 2:'count1', 3:'count2'})     #索引改名称

df[i]=x    #x为常数,全替换;x为向量则要求与替换行/列长度一样

bus=np.where(x2 < 1.5)    #np里相当于matlab里的find
df.values[bus]=1.66 * df.values[bus]   #根据绝对位置进行部分值的替换

去除nan值:

df4 = pd.read_csv('4.csv',  encoding='utf-8')

df4 = df4.dropna()  #去除含有nan的行

# 可以通过axis参数来删除含有空数据的全部列

df4 = df4.dropna(axis=1)

5 拼接与拆分

注意:
df.append 生成了新的对象
list.append 直接修改原对象

df.append()

纵向(上下)拼接和横向(左右)拼接:
axis=0为纵向拼接
concat([df1,df2]) 等价于 df1.append(df2)

在axis=1 时为横向拼接 ,此时有
concat([df1,df2],axis=1) 等价于 merge(df1,df2,left_index=True,right_index=True,how='outer')

如果要合并多个Dataframe,可以用list把几个Dataframe装起来,然后使用concat转化为一个新的Dataframe

df=pd.concat([train1, train2, train3, train4],axis=1,ignore_index=False)

拆分

df.groupby['columns_name']

6 计算

使用sum默认对每列求和,sum(1)为对每行求和
两个series可以直接进行加减乘除计算

7 排序

8 DataFrame在IDLE里的查看

pd.set_option('display.width', 200) # 横向最多显示多少个字符, 一般80不适合横向的屏幕,平时多用200.

pd.set_option('display.max_columns', 12)
pd.set_option('display.max_rows', 10) # 显示的最大行数和列数

pd.set_option('colheader_justify', 'left') 显示的单元格内容靠左边还是右边

相关文章

网友评论

    本文标题:Python.pandas里Datafram的基本操作方法

    本文链接:https://www.haomeiwen.com/subject/igkyxctx.html