检查重复值duplicated()
Duplicated函数功能:查找并显示数据表中的重复值
这里需要注意的是:
- 当两条记录中所有的数据都相等时duplicated函数才会判断为重复值
- duplicated支持从前向后(first),和从后向前(last)两种重复值查找模式
- 默认是从前向后进行重复值的查找和判断,也就是后面的条目在重复值判断中显示为True
1.查询重复值的位置
data.duplicated() #返回布尔型数据,告诉重复值的位置
![](https://img.haomeiwen.com/i8076423/988ae970d5bb7ff5.png)
2.检查有多少重复值
data.duplicated().sum() #说明有4个重复值
![](https://img.haomeiwen.com/i8076423/26b360c6f784ec91.png)
3.打印重复值
data[data.duplicated()]#打印重复值
或者
data[data.duplicated()==True]#打印重复值
![](https://img.haomeiwen.com/i8076423/35731728a0b45921.png)
4.打印非重复值
data[data.duplicated()==False]#打印重复值
5.删除重复记录(drop_duplicates())
drop_duplicates函数功能是:删除数据表中的重复值,判断标准和逻辑与duplicated函数一样
#inplace=True表示直接在源数据上进行操作
data.drop_duplicates(inplace=True)
6.重置索引reset_index
data.reset_index()
网友评论