美文网首页
Pandas处理txt文件并删除包含指定内容的行数据

Pandas处理txt文件并删除包含指定内容的行数据

作者: 越大大雨天 | 来源:发表于2019-11-05 21:48 被阅读0次

    最近使用pandas处理txt文本格式保存的数据需求比较多,有几个特殊处理的地方还花了两个小时的时间才解决,这也凸显了平时工作总结较少的劣势。

    需求分析

    需求是这样的,有个需要处理的txt文件,数据行数50万左右,模拟大致格式如下所示。

    已知信息:
    1、每行共5个字段均以";"英文符分开;字段分别为日期、城市、ID、字母代码、数字代码;
    2、每个城市ID唯一,城市名可能有误;数字代码字段可能为空;
    3、该文件中每个城市数据已按照日期字段降序排列。

    需求目标:
    1、去除空行
    2、如果某个城市在最远日期下的数字代码字段为空,则删除该城市对应的所有数据。

    2019-11-05;北京;ID000001;Z;8
    2019-11-04;北京;ID000001;Z;8
    2019-11-03;北京;ID000001;E;7
    2019-11-02;北京;ID000001;Z;5
    
    2019-11-05;上海;ID000002;E;7
    
    2019-11-04;上海;ID000002;E;6
    2019-11-03;上海;ID000002;E;
    2019-11-03;上海;ID000002;E;5
    2019-11-01;上海;ID000002;E;
    
    2019-11-05;成都;ID000003;E;6
    2019-11-04;成都;ID000003;D;
    2019-11-03;成都;ID000003;E;
    2019-11-03;成都;ID000003;D;
    2019-11-01;成都;ID000003;E;5
    2019-10-31;成都;ID000003;E;5
    
    2019-11-05;广州;ID000002;E;7
    
    2019-11-04;广州;ID000002;E;6
    2019-11-03;广州;ID000002;E;
    2019-11-03;广州;ID000002;E;5
    2019-11-01;广州;ID000002;E;
    

    代码示例

    1. 加载文本数据为Dataframe
      首先需要分隔文本文档并且读取为DataFrame格式:

    使用map方法对可迭代对象中的每个元素进行函数操作,返回结果为一个生成器。

    import pandas as pd
    
    with open("history.txt", "r", encoding="utf8") as f:
        lines = f.readlines()
    # 对每一行数据按";"进行分割,得到一个生成器对象,
    # 内部为二维列表结构,可被DataFrame直接读取
    pre_data = map(lambda x: x.split(";"), lines)
    df = pd.DataFrame(pre_data)
    print(df)
    

    读取结果:

                0     1         2     3     4
    0   2019-11-05    北京  ID000001     Z   8\n
    1   2019-11-04    北京  ID000001     Z   8\n
    2   2019-11-03    北京  ID000001     E   7\n
    3   2019-11-02    北京  ID000001     Z   5\n
    4           \n  None      None  None  None
    5   2019-11-05    上海  ID000002     E   7\n
    6           \n  None      None  None  None
    7   2019-11-04    上海  ID000002     E   6\n
    8   2019-11-03    上海  ID000002     E  \n
    9   2019-11-03    上海  ID000002     E   5\n
    ...
    
    1. 数据预处理
      预处理数据,去除空行和列4中的换行符:
    • dropna():删除空行/列,axis指定行或列,inplace=True表明在原表上修改。
    • df[column].str.strip():列对象的str方法,对该列每个元素执行,也可自定义函数使用apply方法。
    import pandas as pd
    
    with open("history.txt", "r", encoding="utf8") as f:
        lines = f.readlines()
    
    pre_data = map(lambda x: x.split(";"), lines)
    df = pd.DataFrame(pre_data)
    # 在源df上删除空行
    df.dropna(axis=0, inplace=True)
    # 对列对象使用str方法对每个元素进行str.strip()操作去除包括/n在内的空值
    df[4] = df[4].str.strip()
    
    print(df)
    

    预处理结果:

                 0   1         2  3  4
    0   2019-11-05  北京  ID000001  Z  8
    1   2019-11-04  北京  ID000001  Z  8
    2   2019-11-03  北京  ID000001  E  7
    3   2019-11-02  北京  ID000001  Z  5
    5   2019-11-05  上海  ID000002  E  7
    7   2019-11-04  上海  ID000002  E  6
    8   2019-11-03  上海  ID000002  E   
    9   2019-11-03  上海  ID000002  E  5
    10  2019-11-01  上海  ID000002  E   
    12  2019-11-05  成都  ID000003  E  6
    13  2019-11-04  成都  ID000003  D   
    14  2019-11-03  成都  ID000003  E   
    15  2019-11-03  成都  ID000003  D   
    16  2019-11-01  成都  ID000003  E  5
    17  2019-10-31  成都  ID000003  E  5
    19  2019-11-05  广州  ID000004  E  7
    21  2019-11-04  广州  ID000004  E  6
    22  2019-11-03  广州  ID000004  E   
    23  2019-11-03  广州  ID000004  E  5
    24  2019-11-01  广州  ID000004  E   
    
    1. 获取需要删除的城市id集合
      根据需求,若城市最远日期的数字代码字段为空,则需要删除该城市的所有行数据。
      我的思路是:先获取满足需求的城市id集合,再删除该集合包含的行数据。
    • df[column].to_list():将指定列数据转换为列表格式
    • df[df[column=="example"]]筛选出指定列数据等于指定内容的DataFrame
    • iloc[-1]:按行索引来获取行数据
    import pandas as pd
    
    with open("history.txt", "r", encoding="utf8") as f:
        lines = f.readlines()
    
    pre_data = map(lambda x: x.split(";"), lines)
    df = pd.DataFrame(pre_data)
    
    df.dropna(axis=0, inplace=True)
    df[4] = df[4].str.strip()
    
    # 获取唯一值id去重后集合
    id_set = set(df[2].to_list())
    filter_id = []
    for _id in id_set:
        # 遍历获取DataFrame中id值为指定值的df,并获取最后一条即最远日期的Series数据
        id_info = df[df[2]==_id].iloc[-1]
        # 若该最远日期城市的数字代码为空,则符合过滤判断逻辑,将它的id值添加进filter_id列表
        if id_info[4] is "":
            filter_id.append(id_info[2])
    
    print(filter_id)
    

    需删除的结果集合为:

    ['ID000004', 'ID000002']
    
    1. 删除指定数据,写入新文件
      根据所得集合,删除对应城市数据,并将新的结果按格式要求重新写入文本:
    • df[-df[column].isin([example1,example2])]:减号代表删除,删除指定列内容在集合对象内的行数据。
    • df.iat[i, j]:DataFrame中指定行、列坐标位置的具体元素值。
    import pandas as pd
    
    with open("history.txt", "r", encoding="utf8") as f:
        lines = f.readlines()
    
    pre_data = map(lambda x: x.split(";"), lines)
    df = pd.DataFrame(pre_data)
    
    df.dropna(axis=0, inplace=True)
    df[4] = df[4].str.strip()
    print(df)
    # 获取唯一值id去重后集合
    id_set = set(df[2].to_list())
    filter_id = []
    for _id in id_set:
        # 遍历获取DataFrame中id值为指定值的df,并获取最后一条即最远日期的Series数据
        id_info = df[df[2] == _id].iloc[-1]
        # 若该最远日期城市的数字代码为空,则符合过滤判断逻辑,将它的id值添加进filter_id列表
        if id_info[4] is "":
            filter_id.append(id_info[2])
    
    # 在df表中删除城市id在filter_id集合内的所有数据
    result_df = df[-df[2].isin(filter_id)]
    print(result_df)
    with open("history_new.txt", "w", encoding="utf-8") as f:
        for i in range(len(result_df)):
            f.write(result_df.iat[i, 0] + ";" + result_df.iat[i, 1] + ";" + result_df.iat[i, 2] + ";" + result_df.iat[i, 3] + ";" + result_df.iat[i, 4])
            f.write("\n")
    

    写入后history_new.txt中数据格式,可见过滤集合['ID000004', 'ID000002']中id对应的上海和广州数据已被删除,达到了最终的目的:

    2019-11-05;北京;ID000001;Z;8
    2019-11-04;北京;ID000001;Z;8
    2019-11-03;北京;ID000001;E;7
    2019-11-02;北京;ID000001;Z;5
    2019-11-05;成都;ID000003;E;6
    2019-11-04;成都;ID000003;D;
    2019-11-03;成都;ID000003;E;
    2019-11-03;成都;ID000003;D;
    2019-11-01;成都;ID000003;E;5
    2019-10-31;成都;ID000003;E;5
    

    以上,Pandas常用方法很多,要熟练使用还得真的多用多总结才行,不然一个简单的需求都得找半天方法。

    相关文章

      网友评论

          本文标题:Pandas处理txt文件并删除包含指定内容的行数据

          本文链接:https://www.haomeiwen.com/subject/zfvebctx.html