美文网首页语言我爱编程
NumPy-快速处理数据

NumPy-快速处理数据

作者: classtag | 来源:发表于2016-01-25 00:29 被阅读645次

    NumPy为何而来?

    标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任 何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指针和三个 整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。

    此外Python还提供了一个array模块,array对象和列表不同,它直接保存数值,和C语言的一维数组比 较类似。但是由于它不支持多维,也没有各种运算函数,因此也不适合做数值运算。

    NumPy的诞生弥补了这些不足,NumPy提供了两种基本的对象:

    • ndarray(N-dimensional array object)
      ndarray(下文统一称之为数组)是存储单一数据类型的多维数组
    • ufunc(universal function object)
      ufunc则是能够对数组进行处理的函数。
    # -*- coding: utf-8 -*-
    
    # 函数库的导入
    import numpy as np
    
    # ndarray对象
    # 数组的创建
    # 通过给array函数传递Python的序列对象创建数组,如果传递的是多层嵌套的序列,将创建多 维数组(下例中的变量c)
    a = np.array([1, 2, 3, 4])
    b = np.array([5, 6, 7, 8])
    c = np.array([[1, 2, 3, 4], [4, 5, 6, 7], [7, 8, 9, 10]])
    
    print b
    print c
    print c.dtype
    
    # 数组的大小可以通过其shape属性获得
    print a.shape, b.shape, c.shape
    
    c.shape = 4, 3
    print c
    
    c.shape = 2, -1
    print c
    
    # 使用数组的reshape方法,可以创建一个改变了尺寸的新数组,原数组的shape保持不变
    d = a.reshape((2, 2))
    print d
    
    # 数组a和d其实共享数据存储内存区域,因此修改其中任意一个数组的元素都会同时修改另外一个数组的内容
    a[1] = 100  # 将数组a的第一个元素改为100
    print d
    
    # 可以通过dtype参数在创建时指定元素类型
    print np.array([[1, 2, 3, 4], [4, 5, 6, 7], [7, 8, 9, 10]], dtype=np.float)
    print np.array([[1, 2, 3, 4], [4, 5, 6, 7], [7, 8, 9, 10]], dtype=np.complex)
    
    # NumPy提供了很多专门用来创建数组的函数
    # arange函数类似于python的range函数,通过指定开始值、终值和步长来创建一维数组,注意 数组不包括终值
    print np.arange(0, 1, 0.1)
    
    # linspace函数通过指定开始值、终值和元素个数来创建一维数组, 可以通过endpoint关键字指定是否包括终值, 缺省设置是包括终值
    print np.linspace(0, 1, 12)
    
    # logspace函数和linspace类似,不过它创建等比数列,下面的例子产生1(10^0)到100(10^2)、 有20个元素的等比数列
    print np.logspace(0, 2, 20)
    
    # 使用frombuffer, fromstring, fromfile等函数可以从字节序列创建数组
    s = "abcdefgh"
    print np.fromstring(s, dtype=np.int8)
    print np.fromstring(s, dtype=np.int16)
    print np.fromstring(s, dtype=np.float)
    
    
    # fromfunction函数的第一个参数为计算每个数组元素的函数,第二个参数为数组的大小(shape),因为 它支持多维数组,所以第二个参数必须是一个序列,本例中用(10,)创建一个10元素的一维数组
    def func(i):
        return i % 4 + 1
    
    
    print np.fromfunction(func, (10,))
    
    
    # 创建一个二维数组表示九九乘法表,输出的数组a中的每个元素a[i, j]都等于func2(i, j)
    def func2(i, j):
        return (i + 1) * (j + 1)
    
    
    a = np.fromfunction(func2, (9, 9))
    print a
    
    # 存取元素
    a = np.arange(10)
    print a[5]
    print a[3:5]
    print a[:5]
    print a[:-1]
    print a[2:4]
    print a[1:-1:2]  # 范围中的第三个参数表示步长,2表示隔一个元素取一个元素
    print a[::-1]  # 省略范围的开始下标和结束下标,步长为-1,整个数组头尾颠倒
    print a[5:1:-2]  # 步长为负数时,开始下标必须大于结束下标
    
    # 和Python的列表序列不同,通过下标范围获取的新的数组是原始数组的一个视图。它与原始数组共享 同一块数据空间
    b = a[3:7]  # 通过下标范围产生一个新的数组b,b和a共享同一块数据空间
    print b
    b[2] = -10  # 将b的第2个元素修改为-10
    print b
    print a  # a的第5个元素也被修改为10
    
    # 使用整数序列
    
    # 当使用整数序列对数组元素进行存取时,将使用整数序列中的每个元素作为下标,整数序列可以是列表或者数组。
    # 使用整数序列作为下标获得的数组不和原始数组共享数据空间
    x = np.arange(10, 1, -1)
    print x
    print x[[3, 3, 1, 8]]  # 获取x中的下标为3, 3, 1, 8的4个元素,组成一个新的数组
    b = x[np.array([3, 3, -3, 8])]  # 下标可以是负数
    print b
    
    b[2] = 100
    print b
    print x  # 由于b和x不共享数据空间,因此x中的值并没有改变
    x[[3, 5, 1]] = -1, -2, -3  # 整数序列下标也可以用来修改元素的值
    print x
    
    # 使用布尔数组
    x = np.arange(5, 0, -1)
    print x
    x[np.array([True, False, True, False, False])]
    # 布尔数组中下标为0,2的元素为True,因此获取x中下标为0,2的元素
    
    
    x = np.random.rand(10)  # 产生一个长度为10,元素值为0-1的随机数的数组
    print x
    
    # 2.1.3 多维数组
    x = np.arange(0, 60, 10).reshape(-1, 1) + np.arange(0, 6)
    print x
    
    # 结构数组
    person_type = np.dtype({
        'names': ['name', 'age', 'weight'],
        'formats': ['S32', 'i', 'f']
    })
    
    a = np.array([("Zhang", 32, 75.5), ("Wang", 24, 65.2)], dtype=person_type)
    
    print a
    
    a = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]], dtype=np.float32)
    print a
    
    x = np.linspace(0, 2 * np.pi, 10)
    print x
    t = np.sin(x, x)
    print t
    print id(t) == id(x)
    
    
    def triangle_wave(x, c, c0, hc):
        x = x - int(x)  # 三角波的周期为1,因此只取x坐标的小数部分进行计算
        if x >= c:
            r = 0.0
        elif x < c0:
            r = x / c0 * hc
        else:
            r = (c - x) / (c - c0) * hc
        return r
    
    
    x = np.linspace(0, 2, 1000)
    y = np.array([triangle_wave(t, 0.6, 0.4, 1.0) for t in x])
    print y
    
    triangle_ufunc = np.frompyfunc(lambda x: triangle_wave(x, 0.6, 0.4, 1.0), 1, 1)
    y2 = triangle_ufunc(x)
    print y2
    
    
    def triangle_func(c, c0, hc):
        def trifunc(x):
            x = x - int(x)  # 三角波的周期为1,因此只取x坐标的小数部分进行计算
            if x >= c:
                r = 0.0
            elif x < c0:
                r = x / c0 * hc
            else:
                r = (c - x) / (c - c0) * hc
            return r
    
        # 用trifunc函数创建一个ufunc函数,可以直接对数组进行计算, 不过通过此函数
        # 计算得到的是一个Object数组,需要进行类型转换
        return np.frompyfunc(trifunc, 1, 1)
    
    
    y2 = triangle_func(0.6, 0.4, 1.0)(x)
    
    
    
    
    

    参考资料

    《用Python做科学计算》

    相关文章

      网友评论

        本文标题:NumPy-快速处理数据

        本文链接:https://www.haomeiwen.com/subject/bnnrkttx.html