美文网首页我爱编程
pandas函数之drop_duplicates

pandas函数之drop_duplicates

作者: 森丶如血 | 来源:发表于2017-12-28 16:25 被阅读0次

    pandas版本号: 0.21.1 API链接

     DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)
    
    subset : column label or sequence of labels, optional
                Only consider certain columns for identifying duplicates, by default use all of the columns
    keep : {‘first’, ‘last’, False}, default ‘first’
                first : Drop duplicates except for the first occurrence.
                last : Drop duplicates except for the last occurrence.
                False : Drop all duplicates.
    inplace : boolean, default False
                Whether to drop duplicates in place or to return a copy
    

    drop_duplicates是 用于删除重复的数据,第一个参数时传入用于判断的列:

    data = DataFrame({'k1':['one']*3+['two']*4,'k2':[1,1,2,3,3,4,4]})
    data['v1']=range(7)
    data
    data.drop_duplicates(['k1','k2'])
    
    drop_duplicates_subset.PNG

    而第二个参数keep用于指定删除方式,first表示留下重复数据第一条,last表示留下重复数据的最后一条,False表示删除所有重复数据。


    drop_duplicates_keep.PNG

    inplace参数,False时表示在原数据的copy上删除重复数据后,返回copy视图的保留数据(默认为False),True时表示直接在原数据视图操作,没有返回值。


    drop_duplicates_inplace.PNG

    相关文章

      网友评论

        本文标题:pandas函数之drop_duplicates

        本文链接:https://www.haomeiwen.com/subject/ofjvgxtx.html