首先新建一个集合 set,对于序列中的元素,如果已经在集合中了,我们就不返回这个值。如果不在集合中,就向集合添加这个元素,并返回这个值。key 是函数名,通过修改 key,我们可以改变重复元素的判断依据。
比如对于下面这个序列:
a = [{'a': 6, 'b': 4}, {'a': 6, 'b': 3}, {'a': 6, 'b': 4},{'a': 8, 'b': 12}]
list(dedupe(a, lambda x: x['a']))
这里我们把 dedupe 设置为,基于关键字 'a' 对应值去除重复元素,也就是说集合中添加的元素为关键字 'a' 对应值。
输出为:[{'a': 6, 'b': 4}, {'a': 8, 'b': 12}]
list(dedupe(a, lambda x: (x['a'],x['b'])))
这里,集合添加的是关键字'a'和'b'对应值的元组。
输出为: [{'a': 6, 'b': 4}, {'a': 6, 'b': 3}, {'a': 8, 'b': 12}]
# Python高效编程
def dedupe(seq, key = None):
# 依序去除重复元素
seen = set()
items = seq[:]
for val in items:
item = val if key is None else key(val)
if item not in seen:
seen.add(item)
yield val
网友评论