数据预处理之去重逆向(python)

作者: 放翁lcf | 来源:发表于2019-05-06 21:19 被阅读6次

数据预处理之去重逆向(python)
大师兄的Python机器学习笔记:数据重抽样
Python应用于乳腺癌预测！为何Python会这么叼呢？你还不
【数据分析】-007-数据预处理-Python主要数据预处理函数
数据探索 —— 数据预处理 4
python数据去重
逆向基础分析工具
Python数据分析与数据挖掘思路
Python：sklearn数据预处理中fit(),transf
Python第19课：数据清洗之去错、去空、去重

之前因为有根据二维数据表的某一列去重后生成新数据表的需求，写了一个简单代码，具体参见数据预处理之一些需要去重的情况处理，具体效果都在那篇文章里了，如果需要逆向呢？就是将数据从合并的列变成包含重复项的列，有些像宽表变长表；比较直接的思路还是逐行遍历，遇到有合并数据的行就拆分。
下面是简要演示步骤：

1，创建一个简单的测试数据

创建一个简单的测试数据

2，进行合并去重

用数据预处理之一些需要去重的情况处理，代码：

ndf=pd.DataFrame(columns=df.columns) #根据df的列名建一个空表ndf
uids=set(df['uid'])
for u in uids:
    one=df.loc[df['uid']==u] #获取所有uid等于u的行，之后只会保存一行
    #在这里写if然后只保留一行，然后concat到ndf上，实现只保留一行
    olst=list(one['name']) #或者用set
    zero=one.iloc[[0]] #iloc[行号]是series iloc[[行号]]是dataframe
    #zero['name']=str(olst)
    if len(olst)>1: #等于1的就不用改了
        zero['name']=str(olst) #or =''.join(olst)
    ndf=pd.concat([ndf,zero]) #把选出来的zero加到ndf里

去重后的效果

3，去重逆向

cdf=pd.DataFrame(columns=ndf.columns) #据df的列名建一个空表ndf
for i, r in ndf.iterrows():
    if '[' in r['name']: #如果是需要拆分的行
        nlst=r['name'].split(',') #拆分
        for n in nlst:
            k=n.strip("[]'").replace("'",'')
            zero=ndf.loc[[i]]
            zero['name']=k
            cdf=pd.concat([cdf,zero])
    else: #不需要拆分就直接加到后面
        zero=ndf.loc[[i]] 
        cdf=pd.concat([cdf,zero])
cdf

逆向后效果

里面比较有意思的点是在去重的时候用的是one.iloc[[0]]，因为iloc[行号]是series，而iloc[[行号]]是dataframe,在逆向的时候尝试用iloc会遇到索引i的bug，经过探索发现loc[[i]]可以用，于是写zero=ndf.loc[[i]]，iloc和loc配合真的很有趣。