python DataFrame找出相同行，去重，求差集

python DataFrame找出相同行，去重，求差集

作者: 府学路十八吖 | 来源:发表于2018-11-24 22:16 被阅读0次

python DataFrame找出相同行，去重，求差集
python (list,dataframe) 去重
4 Spark SQL
Python求list的交集，并集，差集，补集
pandas 学习小计
第三方库-Pandas-基础
自行车业务分析 2.2 总结
MySQL查询 - 常用SQL操作汇总
21-SparkSQL02
pyspark案例系列8-Dataframe的求差集、交集、并

# ===========找出DataFrame之间的相同行========

（1）问题描述：

在两个DataFrame之间，想要找出相同的行。（类似于求集合之间的交集）

（2）执行命令：

import pandas as pd

same_df = pd.merge(df1, df2, on = ['col1', 'col2', 'col3'], how = 'inner')

（3）使用实例（以下数据都是模拟数据，非真实数据）：

df1 =

weather add time

1 台风重庆市江北区 2018-11-20 00:14:59

2 大雾重庆市南岸区 2018-11-20 00:44:41

3 暴雨重庆市渝中区 2018-11-20 11:18:47

df2 =

weather add time

2 大雾重庆市南岸区 2018-11-20 00:44:41

3 暴雨重庆市渝中区 2018-11-20 11:18:47

4 重庆市忠县 2018-11-20 21:56:51

same_df_1 = pd.merge(df1, df2)

same_df_1

weather add time

0 大雾重庆市南岸区 2018-11-20 00:44:41

1 暴雨重庆市渝中区 2018-11-20 11:18:47

same_df_2 = pd.merge(df1, df2, on = ['weather', 'add', 'time'], how = 'inner')

weather add time

0 大雾重庆市南岸区 2018-11-20 00:44:41

1 暴雨重庆市渝中区 2018-11-20 11:18:47

# ========DataFrame内行去重=========

（1）问题描述：

如果DataFrame之间存在相同的行，想要去除里面的重复行

（2）执行命令：

import pandas as pd

df.drop_duplicates(subset = ['col1', 'col2'])

（3）使用实例（以下都是虚拟数据）：

import pandas as pd

data1 = {

"address":['北京','天津','山西','广东','重庆','天津','山西'],

"preference_level": ['4','3.5','3','3.5','4.5','3.5','3']

}

df = pd.DataFrame(data1)

df2 = df.drop_duplicates(subset=['address','preference_level'])

# =====求DataFrame之间的差集=====

（1）问题描述：

第一种情况，当两个dataframe之间存在交集，且是包含与被包含之间的关系时；第二种情是两者不是包含关系，但是确实存在交集。当然第一种情况的使用方法也适用于第二种。在这两种情况下，如何从df1中删除df1与df2之间相同的元素，仅保留df1中独有的元素？？

（2）使用命令：

针对第一种情况

import pandas as pd

df1.append(df2)

df1.append(df2)

df1 = df1.drop_duplicates(subset=['col1', 'col2'], keep=False)

针对第二种情况

df1.append(df2)

df1 = df1.drop_duplicates(subset=['col1', 'col2'], keep=False)

（3）使用实例（以下都是虚拟数据）

当df1和df2是一种包含关系时，仅使用一次append即可

（4）求解思路：

将df2的内容追加到df1中，如果df1完全包含df2中的内容，则只使用一次append即可，如果df1不完全包括df2中的内容，则需要使用两次append，这是为了保证在在使用drop_duplivates时能够删除df2的全部内容。

相关文章

python DataFrame找出相同行，去重，求差集
# ===========找出DataFrame之间的相同行======== （1）问题描述：在两个DataFr...
python (list,dataframe) 去重
1.list 1，set 不能保证顺序 2，循环 3，字典(推荐)可以保证顺序 2.dataframe 1,ser...
4 Spark SQL
DataFrame是一种不可变的分布式数据集，类似于Python pandas DataFrame，允许用户轻松地...
Python求list的交集，并集，差集，补集
求交集求并集求差集求补集
pandas 学习小计
1.今天有一个需求，两个几百万的数据集进行比较去重。找出差集。数据集A，B 找出A-B pd.read_csv('...
第三方库-Pandas-基础
1 DataFrame： Python Pandas - DataFrame pandas.DataFrame
自行车业务分析 2.2 总结
1、总结DataFrame的去重方法，多种 C=pd.DataFrame({'a':['dog']*3+['fis...
MySQL查询 - 常用SQL操作汇总
时间处理数据查重求差集从其他表拷贝数据正则匹配判断字段是否包含中文关联更新数据
21-SparkSQL02
DataFrame python pandas R RDD MapReduce DataFrame vs Data...
pyspark案例系列8-Dataframe的求差集、交集、并
一. 需求我们使用pyspark的Dataframe的时候，经常会遇到求差集、交集、并集。虽然这个需求可以通...

网友评论

本文标题：python DataFrame找出相同行，去重，求差集

本文链接：https://www.haomeiwen.com/subject/adzyqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|python DataFrame找出相同行，去重，求差集|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！