美文网首页
Pandas 频次统计、加入新的计数列并按某一列去重保留重复项最

Pandas 频次统计、加入新的计数列并按某一列去重保留重复项最

作者: 玖月初识 | 来源:发表于2019-10-25 17:19 被阅读0次

    初始表结构:


    data.png

    去除 elder_no 为空的垃圾数据, 并重新排列行索引(删除会导致行索引断续)

    df = df.dropna(subset=['elder_no']).reset_index(drop=True)
    

    先添加新的一列 count (根据 elder_no 计数统计并把计数加入到新列)

    df['count'] = df['elder_no'].apply(
                    lambda x: dict(df['elder_no'].value_counts())[x])
    
    # 相同的 "elder_no" count 数值一样
    
    add count.png

    去重, elder_no 重复项按照 atime 保留最近的一条

    finnal_df = df.iloc[df.groupby(['elder_no']).apply(
                    lambda x: x['atime'].idxmax())]
    
    finnal.png

    相关文章

      网友评论

          本文标题:Pandas 频次统计、加入新的计数列并按某一列去重保留重复项最

          本文链接:https://www.haomeiwen.com/subject/kofevctx.html