pandas版本号: 0.21.1 API链接
DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)
subset : column label or sequence of labels, optional
Only consider certain columns for identifying duplicates, by default use all of the columns
keep : {‘first’, ‘last’, False}, default ‘first’
first : Drop duplicates except for the first occurrence.
last : Drop duplicates except for the last occurrence.
False : Drop all duplicates.
inplace : boolean, default False
Whether to drop duplicates in place or to return a copy
drop_duplicates是 用于删除重复的数据,第一个参数时传入用于判断的列:
data = DataFrame({'k1':['one']*3+['two']*4,'k2':[1,1,2,3,3,4,4]})
data['v1']=range(7)
data
data.drop_duplicates(['k1','k2'])
drop_duplicates_subset.PNG
而第二个参数keep用于指定删除方式,first表示留下重复数据第一条,last表示留下重复数据的最后一条,False表示删除所有重复数据。
drop_duplicates_keep.PNG
inplace参数,False时表示在原数据的copy上删除重复数据后,返回copy视图的保留数据(默认为False),True时表示直接在原数据视图操作,没有返回值。
drop_duplicates_inplace.PNG
网友评论