美文网首页
如何用pandas提取不重复数据

如何用pandas提取不重复数据

作者: 弓長知行 | 来源:发表于2018-10-12 08:12 被阅读0次

今天的问题是如何从多行数据中提取不重复的行,有重复的不管其重复项还是其本身都删除掉。如下图所示,提取出其中不重复的那一行:

刚开始想了半天,找了半天资料也没查到查到Python怎样直接提取不重复值,后面转念一想,提取不重复的不就是删除重复值吗?这死脑筋转不过弯。

进入正题,要把重复的项删掉,我们用到的是drop_duplicates来删除重复值:

pandas.DataFrame.drop_duplicates

这个方法有两个参数:

subset:要匹配重复项的列标签,可以是单独一个列,也可以是几个列,用序列表示。默认是选择所有列。

keep:删除重复项留下哪一行,keep=first:留下重复项中的第一行。keep=last:留下最后一行。keep=False:删除所有重复项。

提取完成

引申,那如果我们是通过导入csv文件的形式来处理数据,如果导入的文件没有列标签(column label)怎么办呢,还能通过subset进行匹配吗?其实read_csv在导入文件的时候已经为我们创建好列标签了。read_csv会默认将文件的第一行设置为列标签,如果我们不希望将第一行设置为列标签,需要给read_csv设置一个参数,header=None,这样pandas就会单独加上一列数据[0,1,2,3...]为列标签。subset通过这些标签来匹配就可以了。

相关文章

  • 如何用pandas提取不重复数据

    今天的问题是如何从多行数据中提取不重复的行,有重复的不管其重复项还是其本身都删除掉。如下图所示,提取出其中不重复的...

  • Pandas 5. 导入导出数据

    Pandas5 导入导出数据 1)保存和提取数据2)讲解如何在pandas中储存或者调用已经存储好的数据3)没有数...

  • 人大代表数据分析

    爬取代表数据 正则表达式提取需要的数据 使用pandas,将数据转化为pandas表 还可以把上面数据画成饼图 民...

  • 9-Python 科学计算_pandas 篇

    课程概要:1、pandas 库之数据筛选及过滤2、pandas 库之字符串提取与操作3、pandas库之散点图4、...

  • python读取财经数据

    目录 wind api tushare pandas_datareader 1.wind api 提取日期数据基本...

  • 提取不重复值的N种方法

    提取数据中不重复的数据,相比是大家经常遇到的问题,那么提取不重复的数据到底有几种方法呢? 一、一键去重,菜单命令法...

  • python 一些使用小语法

    pandas只是提取指定时刻数据 pandas 将某列小于1的数设为1:方法1 方法2 方法3 找出标签重复行: ...

  • pandas库学习(九) 汇总和计算描述统计

    提取完数据后,通常要对数据进行汇总,统计和计算,看看pandas有哪些操作。df = DataFrame([[1....

  • python制作分布图

    制作分布图类似密度图,在python中利用pandas来提取分布数据是比较方便的。主要用到pandas的cut和g...

  • 【Python学习笔记】从文件中提取数据

    相关库:pandas 一、从xlsx文件中提取数据 相关方法: 常用参数: io : 文件路径; sheet_na...

网友评论

      本文标题:如何用pandas提取不重复数据

      本文链接:https://www.haomeiwen.com/subject/gakwaftx.html