美文网首页
Pandas复习笔记(2021.2.4)

Pandas复习笔记(2021.2.4)

作者: 黑哥666 | 来源:发表于2021-02-04 18:02 被阅读0次
    1.pd.read_csv 参数
        filepath_or_buffer:文件路径及文件名
        sep:指定分隔符,默认',',也可 '\t'
        header:指定行数用来作为列名,数据开始行数。如果文件中没有列名,则默认为0,否则设置为None
        names:用于结果的列名列表,如果数据文件中没有列标题行,就需要执行header=None
        dtype:每列数据的数据类型。例如 {‘a': np.float64, ‘b': np.int32}
        engine:使用分析的引擎,可选C和Python。C引擎快但是Python引擎功能更加完备
        nrows:需要读取的行数(从文件头开始算起)
        encoding:指定字符集类型,通常指定为utf-8
    
    注:Python不区分单双引号
    
    2.Series
    语法:pd.Series(a,index=list('abc'))
    其中,a可以是字典、单个数字和列表,当a是字典时,不需要指定index
    
    3.DataFrame
    语法:pd.DataFrame(data,columns=list1,index=list2)
    其中,data可以是二维字典、二维列表和Series,columns指定列名,index指定索引名
    当data是Series时,因为它本身有索引,故不需指定索引
    
    4.DataFrame 方法
    df.rename(columns={"weight":"Weitght","height":"Height"},inplace=True)  更改列名,inplace参数=True表示当前脚本中永久替换
    df.replace({"Player":{"Curly Armstrong":"xiao"}},inplace=True)  更改字段的值
    df.sort_values(by=["collage","Height"],ascending=True,inplace=False)        对df排序,默认升序
    df.min()    nax/min/sum/mean
    
    5.Series方法
    s.unique()  
    s.value_counts()
    s.isin(['a','b'])
    
    6.常用操作
    df['class']=1      新增列,注意这里不能写成df.class=1
    df[(df.Height>=200) | (df.Height<=170)]     或的条件
    del df['class']    删除列,注意这里不能写成del df.class
    df.sum(axis=0)  对列求和
    df.sum(axis=1)  对行求和
    df.sum()    默认axis=0    
    注意;对数组使用sum函数,则a.sum()表示求所有的和,a.sum(axis=1)对行求和,a.sum(axis=0)对列求和
    
    7.缺失值
    pd.isnull(df.Player)    检测缺失值,返回布尔值
    df.dropna(axis=0,how='any',inplace=False)   删除任何一行中包含至少一个空值,how可选all,表示全为空值才删除行
    df.fillna(value='test',axis=None,inplace=False)     填充空值
    
    8.文本数据  str方法
    s.str.strip()   去除Series所有元素中前后的空格
    s.str.upper()   大写
    s.str.endswith("a")     返回布尔值
    s[s.str.strip().str.endswith("a")]  
    应用场景:当index或columns有空格,可以 df.columns=df.columns.str.strip()
    df.Player.str.split(" ")    使用空格分割,返回列表
    df.Player.str.split(" ").str.get(1)     使用get方法获取指定位置的元素
    df.Player.str.split(" ",expand=True)    expand参数返回一个DataFrame,否则返回Series
    df.Player.str[:3]   截取Player字段的前三个字符
    
    9.索引选取
    df[:5]
    df.loc[df.Height>170]
    df.loc[[2,5,6]]
    df.iloc[[2,4,6]]
    df1=df.set_index('Player')  以Player列作为索引
    df1.loc[['name2','name1']]
    df.iloc[:10,[0,1]]      分别表示行、列的范围
    df.loc[:10,['Player','Height']] 分别指定行、列
    
    10.数据过滤
    df.loc[(df.height>=180)&(df.weight>=80),'flag']="high"
    df.loc[((df.height>=170)&(df.height<=180))&((df.weight>=70)&(df.weight<=80)),'flag']="msize"
    df.loc[~(((df.height>=180)&(df.weight>=80))|(((df.height>=170)&(df.height<=180))&((df.weight>=70)&(df.weight<=80)))),'flag']="small"
    
    11.多重索引
    new_df=df.set_index(keys=['birth_city','birth_state'],append=True,drop=False)   append表示是否将列附加到现有索引,即不删除原来索引
    new_df.sort_index(na_position='last',inplace=True)  排序
    new_df.loc[(slice(None),['Akron','Ahvaz','Albany'],slice(None),:]
    idx=pd.IndexSlice
    new_df.loc[idx[0:500,['Brooklyn'],['Ohio','New York']],idx['Player']]
    注意:python中等于要用==表示 
    
    12.分组计算
    grouped=df.groupby('director_name')
    grouped.size()
    grouped.groups
    len(grouped)
    for name,group in grouped:
        print(name)
        print(type(group))
        
    13.统计计算
    grouped.sum()
    grouped.mean()
    grouped.std()   标准差
    grouped.duration.sum()  对某一列
    grouped.duration.agg([np.mean,np.sum,np.std])   对一列作用多个函数   
    grouped.agg({'duration':np.mean,'director_facebook_likes':np.sum})
    注意:使用numpy的函数时要先导入numpy
    
    14.transform
    df1=df.fillna(0)
    grouped=df1.groupby('director_name')
    z_score=lambda s:(s-s.mean())/s.std()
    grouped[['num_critic_for_reviews','duration','director_facebook_likes']].transform(z_score)
    
    15.过滤
    grouped.filter(lambda s:s['duration'].mean()>=150)  返回满足条件的组的所有数据
    
    16.表联结
    pandas可以对index进行join
    (1) concat
    result=pd.concat(df1,df2,df3)
    (2) merge
    pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
             left_index=False, right_index=False, sort=True,
             suffixes=('_x', '_y'), copy=True, indicator=False,
             validate=None)
    参数解释:
    left和right分表表示联结的df
    how可选inner、outer、left和right,分别标识内联结、取并集和左右联结
    on表示左右两边联结的字段名一样时的联结字段名,多个字段联结时为列表,如['A1','A2']
    left_on和right_no表示左右两边联结的字段不一样时分别指定联结字段名称
    left_index和right_index取值True时表示使用index联结
    例:
    result = pd.merge(left, right, on='key')
    result = pd.merge(left, right, on=['key1', 'key2'])
    result = pd.merge(left, right, how='left/right/outer/inner', on=['key1', 'key2'])
    pd.merge(left,right,left_index=True,right_index=True)
    pd.merge(left,right,left_on = ['key1','key2'],right_on = ['key3','key4'])
    pd.merge(left,right,left_index = True,right_on=['key3','key4'])
    
    17.透视表
    df.pivot_table(data,values,index,columns,aggfunc)   
    例:pd.pivot_table(df,values = ['duration','director_facebook_likes'],columns = ['director_name'],index=['color'],aggfunc=[np.sum,np.mean])
    
    
    

    相关文章

      网友评论

          本文标题:Pandas复习笔记(2021.2.4)

          本文链接:https://www.haomeiwen.com/subject/gtzbtltx.html