美文网首页
python 去除Excel中的重复行数据

python 去除Excel中的重复行数据

作者: 熙航君 | 来源:发表于2021-07-09 14:05 被阅读0次
    方案一:

    导入pandas

    import pandas as pd
    1.读取excel中的数据;
    frame = pd.DataFrame(pd.read_csv('excel的绝对路径.csv'’, 'Sheet1'))
    2.去除重复行后的数据;
    data = frame.drop_duplicates(subset=’’, keep='first', inplace=’’)
    drop_duplicates用法:subset=‘需要去重复的列名’, keep=‘遇到重复的时保留第一个还是保留最后一个’, inplace=‘去除重复项,还是保留重复项的副本’
    3.保存去重后的数据到excel;
    data.to_excel('路径+名字.xlsx')
    或者
    data.to_csv(路径+名字.csv', encoding='utf8')
    
    方案二:

    从Excel表中可以看到有两条重复记录

    # 导入pandas包并重命名为pd
    import pandas as pd
    
    # 读取Excel中Sheet1中的数据
    data = pd.DataFrame(pd.read_excel('test.xlsx', 'Sheet1'))
    
    # 查看读取数据内容
    print(data)
    
    # 查看是否有重复行
    re_row = data.duplicated()
    print(re_row)
    
    # 查看去除重复行的数据
    no_re_row = data.drop_duplicates()
    print(no_re_row)
    
    # 查看基于[物品]列去除重复行的数据
    wp = data.drop_duplicates(['物品'])
    print(wp)
    
    # 将去除重复行的数据输出到excel表中
    no_re_row.to_excel("过滤重复行.xlsx")
    
    

    输出结果

    pandas 删除excel某一列

    from openpyxl import *
    
    filename = r’C:\Users\Desktop\a.xlsx’
    wb = load_workbook(filename)
    ws = wb.active
    ws.delete_cols(13) #删除第 13 列数据
    ws.delete_rows(3) #删除第 3行数据
    wb.save(filename)
    

    读取excel部分数据并分列

    import pandas as pd
    
    #读取excel部分数据,按照规则分列其中一部分数据
    def date_divide():
        af = pd.read_excel(book,ignore_index=True,header=0)#读取所有内容
        df = pd.read_excel(book,usecols=[8,8],ignore_index=True,header=0)#读取部分内容
        df['机构'] = df['所在机构'].str.split('-').str[1]
        df['机构二'] = df['所在机构'].str.split('-').str[2]
        df['分组'] = df['所在机构'].str.split('-').str[3]
        df['组别'] = df['所在机构'].str.split('-').str[4]
        df['所在机构'] = df['所在机构'].str.split('-').str[0]
    

    相关文章

      网友评论

          本文标题:python 去除Excel中的重复行数据

          本文链接:https://www.haomeiwen.com/subject/ilrtpltx.html