使用pandas做数据集diff分析

作者: 小小兰哈哈 | 来源:发表于2018-05-18 12:44 被阅读0次

应用场景：

使用pandas工具对比不同模型的结果数据，查看diff

具体使用说明：

首先加载两份数据，使用read_csv加载，并使用drop_duplicates去重

df1 = pd.read_csv(sys.argv[1]) df2 = pd.read_csv(sys.argv[2]) df1.drop_duplicates(subset=['id'], inplace=True) df2.drop_duplicates(subset=['id'], inplace=True)

使用apply函数对dataframe中的内容进行处理，在这里，需要对每一列计算一个最佳分值，作为模型的最佳分值。

df1['score'] = df1.apply(score_get, axis=1)

df2['score'] = df1.apply(score_get, axis=1)

df1n = df1[df1['score']>thre_num]

df2n = df2[df2['score']>thre_num]

对两个模型的结果通过唯一的id做merge，在一个矩阵里面存储两个模型的得分：

df_merge= pd.merge(df1n , df2n, how= 'left' , on=['id']) df_merge.to_csv('merge_end', sep="\t")

对新的矩阵df_merge的两列score_x,score_y做减法，看效果：

df_merge['var'] = df_merge.apply(lambda x:(abs(x['score_x'] - x['score_y'])), axis=1)

df_mn = df_merge

df_mn = df_mn.sort_values(by=['var'],ascending=False)

网友评论

我爱编程

本文标题：使用pandas做数据集diff分析

本文链接：https://www.haomeiwen.com/subject/slobdftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

使用pandas做数据集diff分析

应用场景：

使用pandas工具对比不同模型的结果数据，查看diff

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

我爱编程