1.pd.read_csv 参数
filepath_or_buffer:文件路径及文件名
sep:指定分隔符,默认',',也可 '\t'
header:指定行数用来作为列名,数据开始行数。如果文件中没有列名,则默认为0,否则设置为None
names:用于结果的列名列表,如果数据文件中没有列标题行,就需要执行header=None
dtype:每列数据的数据类型。例如 {‘a': np.float64, ‘b': np.int32}
engine:使用分析的引擎,可选C和Python。C引擎快但是Python引擎功能更加完备
nrows:需要读取的行数(从文件头开始算起)
encoding:指定字符集类型,通常指定为utf-8
注:Python不区分单双引号
2.Series
语法:pd.Series(a,index=list('abc'))
其中,a可以是字典、单个数字和列表,当a是字典时,不需要指定index
3.DataFrame
语法:pd.DataFrame(data,columns=list1,index=list2)
其中,data可以是二维字典、二维列表和Series,columns指定列名,index指定索引名
当data是Series时,因为它本身有索引,故不需指定索引
4.DataFrame 方法
df.rename(columns={"weight":"Weitght","height":"Height"},inplace=True) 更改列名,inplace参数=True表示当前脚本中永久替换
df.replace({"Player":{"Curly Armstrong":"xiao"}},inplace=True) 更改字段的值
df.sort_values(by=["collage","Height"],ascending=True,inplace=False) 对df排序,默认升序
df.min() nax/min/sum/mean
5.Series方法
s.unique()
s.value_counts()
s.isin(['a','b'])
6.常用操作
df['class']=1 新增列,注意这里不能写成df.class=1
df[(df.Height>=200) | (df.Height<=170)] 或的条件
del df['class'] 删除列,注意这里不能写成del df.class
df.sum(axis=0) 对列求和
df.sum(axis=1) 对行求和
df.sum() 默认axis=0
注意;对数组使用sum函数,则a.sum()表示求所有的和,a.sum(axis=1)对行求和,a.sum(axis=0)对列求和
7.缺失值
pd.isnull(df.Player) 检测缺失值,返回布尔值
df.dropna(axis=0,how='any',inplace=False) 删除任何一行中包含至少一个空值,how可选all,表示全为空值才删除行
df.fillna(value='test',axis=None,inplace=False) 填充空值
8.文本数据 str方法
s.str.strip() 去除Series所有元素中前后的空格
s.str.upper() 大写
s.str.endswith("a") 返回布尔值
s[s.str.strip().str.endswith("a")]
应用场景:当index或columns有空格,可以 df.columns=df.columns.str.strip()
df.Player.str.split(" ") 使用空格分割,返回列表
df.Player.str.split(" ").str.get(1) 使用get方法获取指定位置的元素
df.Player.str.split(" ",expand=True) expand参数返回一个DataFrame,否则返回Series
df.Player.str[:3] 截取Player字段的前三个字符
9.索引选取
df[:5]
df.loc[df.Height>170]
df.loc[[2,5,6]]
df.iloc[[2,4,6]]
df1=df.set_index('Player') 以Player列作为索引
df1.loc[['name2','name1']]
df.iloc[:10,[0,1]] 分别表示行、列的范围
df.loc[:10,['Player','Height']] 分别指定行、列
10.数据过滤
df.loc[(df.height>=180)&(df.weight>=80),'flag']="high"
df.loc[((df.height>=170)&(df.height<=180))&((df.weight>=70)&(df.weight<=80)),'flag']="msize"
df.loc[~(((df.height>=180)&(df.weight>=80))|(((df.height>=170)&(df.height<=180))&((df.weight>=70)&(df.weight<=80)))),'flag']="small"
11.多重索引
new_df=df.set_index(keys=['birth_city','birth_state'],append=True,drop=False) append表示是否将列附加到现有索引,即不删除原来索引
new_df.sort_index(na_position='last',inplace=True) 排序
new_df.loc[(slice(None),['Akron','Ahvaz','Albany'],slice(None),:]
idx=pd.IndexSlice
new_df.loc[idx[0:500,['Brooklyn'],['Ohio','New York']],idx['Player']]
注意:python中等于要用==表示
12.分组计算
grouped=df.groupby('director_name')
grouped.size()
grouped.groups
len(grouped)
for name,group in grouped:
print(name)
print(type(group))
13.统计计算
grouped.sum()
grouped.mean()
grouped.std() 标准差
grouped.duration.sum() 对某一列
grouped.duration.agg([np.mean,np.sum,np.std]) 对一列作用多个函数
grouped.agg({'duration':np.mean,'director_facebook_likes':np.sum})
注意:使用numpy的函数时要先导入numpy
14.transform
df1=df.fillna(0)
grouped=df1.groupby('director_name')
z_score=lambda s:(s-s.mean())/s.std()
grouped[['num_critic_for_reviews','duration','director_facebook_likes']].transform(z_score)
15.过滤
grouped.filter(lambda s:s['duration'].mean()>=150) 返回满足条件的组的所有数据
16.表联结
pandas可以对index进行join
(1) concat
result=pd.concat(df1,df2,df3)
(2) merge
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=True,
suffixes=('_x', '_y'), copy=True, indicator=False,
validate=None)
参数解释:
left和right分表表示联结的df
how可选inner、outer、left和right,分别标识内联结、取并集和左右联结
on表示左右两边联结的字段名一样时的联结字段名,多个字段联结时为列表,如['A1','A2']
left_on和right_no表示左右两边联结的字段不一样时分别指定联结字段名称
left_index和right_index取值True时表示使用index联结
例:
result = pd.merge(left, right, on='key')
result = pd.merge(left, right, on=['key1', 'key2'])
result = pd.merge(left, right, how='left/right/outer/inner', on=['key1', 'key2'])
pd.merge(left,right,left_index=True,right_index=True)
pd.merge(left,right,left_on = ['key1','key2'],right_on = ['key3','key4'])
pd.merge(left,right,left_index = True,right_on=['key3','key4'])
17.透视表
df.pivot_table(data,values,index,columns,aggfunc)
例:pd.pivot_table(df,values = ['duration','director_facebook_likes'],columns = ['director_name'],index=['color'],aggfunc=[np.sum,np.mean])
网友评论