我喜欢用pandas 将爬虫的数据保存到csv文件中,这里有个很好用的方法就是使用to_csv方法,只要将数据转换成dataframe数据框的格式就可以使用了,那么有时候目录中会有的csv文件中,需要进行去重复,可以使用pandas 的drop_duplicate这个方法
import os
current_dir = os.listdir()
for dirin current_dir:
if os.path.isfile(dir)and os.path.basename(dir).endswith('.csv'):
csv = pd.read_csv(dir, encoding='gbk')
csv.drop_duplicates(subset=['url'], keep ='first')
这里需要注意的就是subtset和keep参数,subset可以选择需要删除重复数据的列,一般爬虫获取的数据是href列需要去重,keep保持为first,就是保留第一次的数据,后续出现的重复才会删除,一般选择first
网友评论