Pandas将csv文件去重

Pandas将csv文件去重

作者: 雨夜剪魂 | 来源:发表于2019-03-01 11:11 被阅读0次

Pandas将csv文件去重
【python】读写csv
Python3分析CSV数据
Python数据分析 | 数据处理的一些方法和技巧
用python读写和处理csv文件
【函数学习】pandas.read_csv
pandas实战
Pandas学习小结【2】解析CSV文件
Pandas、Numpy和Matplotlib(知识点小结）
pandas3

我喜欢用pandas 将爬虫的数据保存到csv文件中，这里有个很好用的方法就是使用to_csv方法，只要将数据转换成dataframe数据框的格式就可以使用了，那么有时候目录中会有的csv文件中，需要进行去重复，可以使用pandas 的drop_duplicate这个方法

import os

current_dir = os.listdir()

for dirin current_dir:

if os.path.isfile(dir)and os.path.basename(dir).endswith('.csv'):

csv = pd.read_csv(dir, encoding='gbk')

csv.drop_duplicates(subset=['url'], keep ='first')

这里需要注意的就是subtset和keep参数，subset可以选择需要删除重复数据的列，一般爬虫获取的数据是href列需要去重，keep保持为first，就是保留第一次的数据，后续出现的重复才会删除，一般选择first

相关文章

Pandas将csv文件去重
我喜欢用pandas 将爬虫的数据保存到csv文件中，这里有个很好用的方法就是使用to_csv方法，只要将数据转换...
【python】读写csv
1.pandas读写csv文件 2.对数据框去重保存 3.使用 pandas 来分析CSV 文件，并将满足条件的...
Python3分析CSV数据
2.1 基础Python与pandas 2.1.1 使用pandas处理CSV文件读取CSV文件使用Pytho...
Python数据分析 | 数据处理的一些方法和技巧
1.用pandas的to_csv()写csv文件参考：pandas系列 read_csv 与 to_csv 方法...
用python读写和处理csv文件
读取 1、安装pandas 这里我们使用pandas包来读取csv文件，pandas处理csv文件十分方便,是我认...
【函数学习】pandas.read_csv
pandas.read_csv() 读取csv文件为DataFrame格式——pandas数据处理的格式，之后补 ...
pandas实战
一、pandas读取csv文件参考【1】详解pandas的read_csv方法：https://blog.csd...
Pandas学习小结【2】解析CSV文件
Pandas可以读取多种类型文件，如excel, txt, csv等, 这里小结下读取csv文件。读取CSV文件...
Pandas、Numpy和Matplotlib(知识点小结）
一、Pandas 1.1 文件读取 import pandas as pd df=pd.read_csv("文件位...
pandas3
4、Pandas csv读写文件 4.1读取csv文件在 Pandas 中用于读取文本的函数有两个，分别是： r...

网友评论

本文标题：Pandas将csv文件去重

本文链接：https://www.haomeiwen.com/subject/xviruqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Pandas将csv文件去重|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！