美文网首页
Fluent Python笔记--序列数组

Fluent Python笔记--序列数组

作者: MontyOak | 来源:发表于2017-12-02 21:10 被阅读31次

    列表推导式与filter和map

    列表推到式所能达到的效果,通常也可以通过filtermap的组合使用来达到。后者是Python语言层级对于函数式编程的支持(相关的方法还有reduce和几乎用不到的apply)。下面是一个列表推导式和filtermap的示例:

    >>> symbols = '$¢£¥€¤'
    >>> list_comp = [ord(s) for s in symbols if ord(s)>127] #列表推导式
    >>> gen_comp = (ord(s) for s in symbols if ord(s)>127) #生成器推导式
    >>> filter_map = list(filter(map(lambda c: c>127, map(ord, symbols)))) #filter和map的组合
    >>> list_comp == filter_map
    True
    

    一个tuple的例子一个list的例子

    一个例子说明list中乘法操作的副作用

    >>> list_1 = [['_'] * 3 for _ in range(3)]
    [['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
    >>> list_2 = [['_'] * 3] * 3
    [['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
    >>> list_1[1][2] = 'X'
    [['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]
    >>> list_2[1][2] = 'X'
    [['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]
    

    上面例子说明list_2中的三个嵌套list实际上是同一个list的引用,说明了*操作的实质。
    都知道tuple是不可变的数据结构。那么下面的例子也许会让你有点吃惊:

    >>> t = (1, 2, [3, 4])
    >>> id(t[2])
    43044040
    >>> t[2] += [5, 6]
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
    TypeError: 'tuple' object does not support item assignment
    >>> t
    (1, 2, [3, 4, 5, 6])
    >>> id(t[2])
    43044040
    >>> t.append(7)
    >>> t
    (1, 2, [3, 4, 5, 6, 7])
    >>> id(t[2])
    43044040
    

    上面情况中,不可变数据结构tuple中的元素list的内容发生了变化,但这并没有违反“不可变”的约束!不信你看看t[2]元素从头至尾在内存中的位置都没有变化( id()的结果)。
    这给了我们几个警示:

    • 不可变数据结构中不应该出现可变元素
    • +=不是一个原子操作,而是两个独立的操作,一个操作的失败并不会影响另一个操作

    用bisect维护排序序列

    下面的例子是向一个排序序列中的适当位置插入元素,而保持序列依旧是排序的:

    import bisect
    import sys
    
    HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30]
    NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]
    
    ROW_FMT = '{0:2d} @ {1:2d} {2}{0:<2d}'
    
    def demo(bisect_fn):
        for needle in reversed(NEEDLES):
            position = bisect_fn(HAYSTACK, needle) 
            offset = position * ' |' 
            print(ROW_FMT.format(needle, position, offset)) 
    
    if __name__ == '__main__':
        if sys.argv[-1] == 'left': 
            bisect_fn = bisect.bisect_left
        else:
            bisect_fn = bisect.bisect
        print('DEMO:', bisect_fn.__name__) 
        print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
        demo(bisect_fn)
    

    bisect内部通过二分查找来实现的index方法。bisect_leftbisect_right的不同可能会导致序列是否稳定

    More than list

    array

    如果有一个存储大量数据的只含数字的序列,array.array是一个更好的选择。它提供pop,insert,'extend'方法来操作数组,还提供frombytestofile来提供更快的文件读写操作。与list不同,array.array的初始化时需要声明类型,并且它在单一数组中仅支持一种类型。

    >>> from array import array 
    >>> from random import random
    >>> floats = array('d', (random() for i in range(10**7))) 
    >>> floats[-1] 
    0.07802343889111107
    >>> fp = open('floats.bin', 'wb')
    >>> floats.tofile(fp) # 写文件操作
    >>> fp.close()
    >>> floats2 = array('d') 
    >>> fp = open('floats.bin', 'rb')
    >>> floats2.fromfile(fp, 10**7) # 读文件操作
    >>> fp.close()
    >>> floats2[-1] 
    0.07802343889111107
    >>> floats2 == floats 
    True
    >>> sorted_floats = array.array(floats.typecode, sorted(floats))
    
    memoryview

    内存视图(memoryview)其实是泛化和去数学化的 NumPy 数组。它让你在不需要复制内容的前提下,
    在数据结构之间共享内存。其中数据结构可以是任何形式,比如 PIL 图片、SQLite
    数据库和 NumPy 的数组,等等。这个功能在处理大型数据集合的时候非常重要。 ---Travis Oliphant

    memory.cast可以用不同的方式读写同一块内存并展示成不同的数据格式,支持字节级别的修改数据。

    >>> numbers = array.array('h', [-2, -1, 0, 1, 2])
    >>> memv = memoryview(numbers) 
    >>> len(memv)
    5
    >>> memv[0] 
    -2
    >>> memv_oct = memv.cast('B') 
    >>> memv_oct.tolist() 
    [254, 255, 255, 255, 0, 0, 1, 0, 2, 0]
    >>> memv_oct[5] = 4 
    >>> numbers
    array('h', [-2, -1, 1024, 1, 2]) 
    
    Numpy和SciPy

    NumPy扩展来数组,是它更便于去操作大量的数据,更加方便计算,在数据分析方面中的PandasTensorFlowMXNet等库中对于数组的操作都和NumPy.array十分相似。
    SciPy实现了许多线性代数和数值分析统计学的计算。
    关于这两种优秀的库,有一本书SciPy Lecture Notes非常值得一读(美中不足是没有pandas相关的内容)。

    队列

    通过使用appendpoplist可以达到队列和栈的效果。但这在语义性和操作性能上都有所不足。
    collections.deque是一个双向队列,支持从首尾两端添加/删除元素,初始化时还有指定队列长度是其最多只保留特定数量的元素。

    >>> from collections import deque
    >>> dq = deque(range(10), maxlen=10) 
    >>> dq
    deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
    >>> dq.rotate(3) 
    >>> dq
    deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
    >>> dq.rotate(-4)
    >>> dq
    deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
    >>> dq.appendleft(-1) 
    >>> dq
    deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
    >>> dq.extend([11, 22, 33]) 
    >>> dq
    deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
    >>> dq.extendleft([10, 20, 30, 40]) 
    >>> dq
    deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10)
    

    相关文章

      网友评论

          本文标题:Fluent Python笔记--序列数组

          本文链接:https://www.haomeiwen.com/subject/zmqobxtx.html