领导给了两个表格,查找重复内容的数据。数据合并使用merge函数,按照数据中具体的某⼀字段连接数据。常用的有以下几种方式:
pd.merge(数据1,数据2,on =' ',how =' ')
on表⽰按照哪个特征来找相同的字段,how是指两个DateFrame的拼接⽅式
merged_data = pd.merge(数据1,数据2,how = 'outer‘)全合并,求并集
merged_data = pd.merge(数据1,数据2,how = 'inner‘)只合并双方都有的列
merged_data = pd.merge(数据1,数据2,how = 'left‘)按数据1合并
merged_data = pd.merge(数据1,数据2,how = 'right‘)按数据2合并
我面对的问题,查找两个表格重复内容,代码为:
df=pd.merge(data1,data2,how='inner',on=['ISBN'])关键列名。
查出的结果,打乱顺序,使用sample函数:
data1 = data1.sample(frac=1.0)参数frac = 1.0相当于100%,0.6是60%
网友评论