起因:今天想用Python简单实现几个项目的功能模块。在一个模块中,我不知道这个数据里都有什么省份的数据。因此就可以通过下面的这些方法,把几十万条数据去重,就知道这个数据集里都有哪些省份的数据了。
- 1)set()方法。对一个list中的招聘数据的工作地点进行去重,去重之后顺序是随机的。
import pandas as pd
import numpy as np
import re
//读取文件
df = pd.read_csv(r'D:\pycharm\coderush\2020-5-9.csv')
//只取出"city_province"这个字段
x = df[["city_province"]]
//将数据转化为矩阵
x=np.array(x)
//去重
println(set(x))
//!!!!加上sort方法,就可以保证顺序不变了!!!!
ids = [1,4,3,3,4,2,3,4,5,6,1]
news_ids = list(set(ids))
news_ids.sort(key=ids.index)
- 2)对一个list中的新闻id进行去重,去重之后要保证顺序不变。
//最简单的思路就是:
ids = [1,2,3,3,4,2,3,4,5,6,1]
news_ids = []
for id in ids:
if id not in news_ids:
news_ids.append(id)
print news_ids
网友评论