美文网首页
Pandas将csv文件去重

Pandas将csv文件去重

作者: 雨夜剪魂 | 来源:发表于2019-03-01 11:11 被阅读0次

    我喜欢用pandas 将爬虫的数据保存到csv文件中,这里有个很好用的方法就是使用to_csv方法,只要将数据转换成dataframe数据框的格式就可以使用了,那么有时候目录中会有的csv文件中,需要进行去重复,可以使用pandas 的drop_duplicate这个方法

    import os

    current_dir = os.listdir()

    for dirin current_dir:

    if os.path.isfile(dir)and os.path.basename(dir).endswith('.csv'):

    csv = pd.read_csv(dir, encoding='gbk')

    csv.drop_duplicates(subset=['url'], keep ='first')

    这里需要注意的就是subtset和keep参数,subset可以选择需要删除重复数据的列,一般爬虫获取的数据是href列需要去重,keep保持为first,就是保留第一次的数据,后续出现的重复才会删除,一般选择first

    相关文章

      网友评论

          本文标题:Pandas将csv文件去重

          本文链接:https://www.haomeiwen.com/subject/xviruqtx.html