美文网首页
Python模块之collections

Python模块之collections

作者: Jlan | 来源:发表于2017-05-18 00:20 被阅读98次

    collections是Python内建的一个集合模块,提供了许多有用的集合类。

    defaultdict

    我们都知道,在使用Python原生的数据结构dict的时候,如果用d[key]这样的方式访问,当指定的key不存在时,是会抛出KeyError异常的。
    但是,如果使用defaultdict,只要你传入一个默认的工厂方法,那么请求一个不存在的key时,便会调用这个工厂方法使用其结果来作为这个key的默认值。

    from collections import defaultdict
    
    # 当d[key]不存在时返回默认值
    # 默认值是调用函数返回的,而函数在创建defaultdict对象时传入
    dd = defaultdict(lambda: 'N/A')
    dd['key1'] = 'abc'
    print(dd['key1']) # key1存在
    print(dd['key2']) # key2不存在,返回默认值
    
    abc
    N/A
    
    # 将键映射到多个值上
    members = [
        # Age, name
        ['male', 'John'],
        ['male', 'Jack'],
        ['female', 'Lily'],
        ['male', 'Pony'],
        ['female', 'Lucy'],
    ]
    
    result = defaultdict(list)
    for sex, name in members:
        result[sex].append(name)
    
    print(result)
    
    defaultdict(<class 'list'>, {'female': ['Lily', 'Lucy'], 'male': ['John', 'Jack', 'Pony']})
    

    OrderedDict

    在Python中,dict这个数据结构由于hash的特性,是无序的,这在有的时候会给我们带来一些麻烦,幸运的是,collections模块为我们提供了一个有序的字典对象OrderedDict。

    OrderedDict内部维护了一个双向链表,会根据元素加入的顺序来排列键的位置。OrderedDict的大小是普通字典的2倍多。

    from collections import OrderedDict
    
    items = (
        ('A', 1),
        ('B', 2),
        ('C', 3)
    )
    
    regular_dict = dict(items)
    ordered_dict = OrderedDict(items)
    
    print(regular_dict)
    print(ordered_dict)
    
    {'A': 1, 'C': 3, 'B': 2}
    OrderedDict([('A', 1), ('B', 2), ('C', 3)])
    

    namedtuple()

    对列表和元组一般是通过下表来访问的,有时这种访问方式有些难以阅读。我们想要通过名字来访问元素以此减少结构中对位置的依赖,这时就可以使用namedtuple()。namedtuple()是一个工厂方法,它返回的是python中标准元组类型的子类。我们提供给它一个类型名称及相应的字段,它返回一个可实例化的类、为你已经定义好的字段传入值等。

    records = [
        ('apple', 2.8, 6),
        ('banada', 1.5, 8),
        ('peach', 2.2, 12),
        ('pear', 1.8, 5)
    ]
    
    def compute_cost(records):
        total = 0
        for rec in records:
            total += rec[1]*rec[2]
        return total
    
    print(compute_cost(records))
    
    64.2
    
    from collections import namedtuple
    
    Fruit = namedtuple('Fruit', ['name', 'price', 'count'])
    def compute_cost2(records):
        total = 0
        for rec in records:
            fruit = Fruit(*rec)
            total += fruit.price*fruit.count
        return total
    
    print(compute_cost2(records))
    
    64.2
    

    namedtuple()的一种可能用法是用来代替dict,与普通dict不同的是,namedtuple是不可变的,如果需要改变属性,可以通过namedtuple实例的_replace()方法。该方法创建一个全新的命名组,并对相应值进行替换。

    Fruit = namedtuple('Fruit', ['name', 'price', 'count'])
    fruit = Fruit('apple', 2.8, 6)
    print(fruit)
    # fruit.price=3 # 返回AttributeError: can't set attribute
    fruit = fruit._replace(price=3)
    print(fruit)
    
    Fruit(name='apple', price=2.8, count=6)
    Fruit(name='apple', price=3, count=6)
    

    Counter

    找出序列中出现次数最多的元素可以用collections模块中的Counter类来实现 Counter的底层是一个字典,在元素和它们出现的次数间做了一个映射。Counter对象提供任何可哈希的对象序列作为输入。

    from collections import Counter
    
    words = ['a', 'a', 'b', 'a', 'e', 'f', 'a', 'e', 'e', 'd', 'd']
    count = Counter(words)
    print(count) 
    print(count.most_common(3)) # 出现次数最多的前三个元素
    
    Counter({'a': 4, 'e': 3, 'd': 2, 'f': 1, 'b': 1})
    [('a', 4), ('e', 3), ('d', 2)]
    
    print(count['f'])
    count['f'] += 1 # 还可以手动增加某个元素的出现次数
    print(count['f'])
    
    1
    2
    
    print(count)
    words_2 = ['b', 'a', 'c']
    count.update(words_2) # update方法可以更新count的数据
    print(count)
    
    Counter({'a': 4, 'e': 3, 'f': 2, 'd': 2, 'b': 1})
    Counter({'a': 5, 'e': 3, 'd': 2, 'f': 2, 'b': 2, 'c': 1})
    
    # Counter对象的各种运算
    a = Counter(words)
    b = Counter(words_2)
    print(a)
    print(b)
    print(a + b)
    print(a - b)
    
    Counter({'a': 4, 'e': 3, 'd': 2, 'f': 1, 'b': 1})
    Counter({'c': 1, 'b': 1, 'a': 1})
    Counter({'a': 5, 'e': 3, 'd': 2, 'b': 2, 'c': 1, 'f': 1})
    Counter({'e': 3, 'a': 3, 'd': 2, 'f': 1})
    

    deque

    使用list存储数据时,按索引访问元素很快,但是插入和删除元素就很慢了,因为list是线性存储,数据量大的时候,插入和删除效率很低。
    deque是为了高效实现插入和删除操作的双向列表,deque其实是double-ended queue的缩写,翻译过来就是双端队列。deque除了实现list的append()和pop()外,还支持appendleft()和popleft(),这样就可以非常高效地往头部添加或删除元素。

    from collections import deque
    q = deque(['a', 'b', 'c'])
    q.append('x')
    q.appendleft('y')
    print(q)
    q.popleft()
    print(q)
    
    deque(['y', 'a', 'b', 'c', 'x'])
    deque(['a', 'b', 'c', 'x'])
    

    作为一个双端队列,deque还提供了一些其他的好用方法,比如 rotate 等

    import sys
    import time
    from collections import deque
    
    fancy_loading = deque('>--------------------')
    n = 0
    while n<2*len(fancy_loading):
        print('%s \r' % ''.join(fancy_loading), end='') # python3中print会自动换行,设置end=''可以不换行
    #     sys.stdout.write('%s \r' % ''.join(fancy_loading)) # \r表示换行,回到行首
        fancy_loading.rotate(1)
        sys.stdout.flush()
        time.sleep(0.1)
        n += 1
    
    -------------------->
    

    参考

    相关文章

      网友评论

          本文标题:Python模块之collections

          本文链接:https://www.haomeiwen.com/subject/wtbjxxtx.html