美文网首页Anacanda
数据科学pandas库自己常用方法备忘_持续更新

数据科学pandas库自己常用方法备忘_持续更新

作者: 放翁lcf | 来源:发表于2019-08-07 00:14 被阅读10次

    前言

    Python的pandas库常用的一些方法,和各种整合说各种pandas的函数、操作的教程不同之处在于,这个备忘更立足于自己遇到的问题,自己高频使用但是还没能用好掌握的方法和解决方案;主要是自己不会或不熟的,所以也不是pandas库的数据科学高频操作方法集合;这个备忘也是希望自己能够更快掌握这些解决方案。

    数据操作

    更改列的顺序_只输出特定列

    s_idx=['a','b','c']
    df=df.loc[:,s_idx] #更改列的顺序,只保存特定的列
    
    ncols={'_id':'用户id','nick':'昵称'}
    df.rename(columns=ncols, inplace=True) #更改列的名称
    #不需要配置所有列的键值,例如df.columns有_id,nick,city三个列名,上面语句不影响city这个列名,city也仍然会保留
    

    数据透视表

    透视表:value_count 没有去重;去重,value_sum;

    相关文章

      网友评论

        本文标题:数据科学pandas库自己常用方法备忘_持续更新

        本文链接:https://www.haomeiwen.com/subject/cptndctx.html