美文网首页
[python][科学计算][numpy]使用指南6-重构

[python][科学计算][numpy]使用指南6-重构

作者: jiedawang | 来源:发表于2019-02-27 00:16 被阅读0次

    最后一次更新日期: 2019/4/13

    NumPy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组对象(ndarray)和用于处理数组的例程集合组成的库。
    使用NumPy,开发人员可以执行以下操作:

    • 数组的算数和逻辑运算。
    • 傅立叶变换和用于图形操作的例程。
    • 与线性代数有关的操作。 NumPy 拥有线性代数和随机数生成的内置函数。

    使用前先导入模块:
    import numpy as np

    1. 类型转换

    In [619]: a=np.array([[1,2],[3,4]])
    
    In [620]: a.dtype
    Out[620]: dtype('int32')
    
    In [621]: a=a.astype('float64')
    
    In [622]: a.dtype
    Out[622]: dtype('float64')
    
    In [623]: a=np.int32(a)
    
    In [624]: a.dtype
    Out[624]: dtype('int32')
    

    使用ndarray.astype方法或是使用数据类型同名方法都可以转换类型,关于numpy支持的数据类型可以查看属性章节。转换类型后返回一个新数组。

    2. 重塑

    (1). 改变形状
    In [625]: a=np.array([[1,2],[3,4]])
    
    In [626]: a.reshape((1,4))
    Out[626]: array([[1, 2, 3, 4]])
    
    In [627]: a.reshape((-1,4))
    Out[627]: array([[1, 2, 3, 4]])
    

    使用tuple类型的参数声明新的形状。允许有一个新轴的大小为-1,表示自动计算。
    改变前后元素数size需要保持一致。元素在轴上的排列是从最后一个轴开始往前面的轴方向上堆叠,见如下图示,可通过order参数指定其他排序方式。轴的相对位置不会改变,所以一些复杂的变形可能需要结合transposeswapaxes此类轴交换方法使用。

    (2). 平铺
    In [640]: a.ravel()
    Out[640]: array([1, 2, 3, 4])
    
    In [641]: a.flatten()
    Out[641]: array([1, 2, 3, 4])
    

    将数组平铺为向量,等效于reshape((-1,)),可通过order参数指定其他排序方式。

    (3). 转置
    In [643]: a.T
    Out[643]: 
    array([[1, 3],
           [2, 4]])
    

    数组为一维时转置无效,为二维时即矩阵的转置,多于二维时交换第一个和最后一个轴。

    (4). 轴交换
    In [646]: a.swapaxes(0,1)
    Out[646]: 
    array([[1, 3],
           [2, 4]])
    
    In [647]: a.transpose([1,0])
    Out[647]: 
    array([[1, 3],
           [2, 4]])
    

    swapaxes一次只能指定两个轴进行交换,transpose可以重新为所有轴排序。

    3. 排序

    (1). 直接排序
    In [734]: a=np.array([[2,3],[1,4]])
    
    In [735]: np.sort(a,axis=None)
    Out[735]: array([1, 2, 3, 4])
    
    In [736]: a.sort(axis=0)
    
    In [737]: a
    Out[737]: 
    array([[1, 3],
           [2, 4]])
    

    ndarray.sort会直接在原数组上排序,可通过第一个参数axis指定排序的轴,会将沿着该轴方向的每个向量单独排序,默认-1,除沿最后一个轴外,指定其他轴都会在排序时生成数据的临时副本,因此沿最后一个轴排序最快。
    等效方法np.sort,返回的是排序后的副本,还可指定axis=None,会将数组展开再排序。
    当数组的维度具备实际含义时,直接排序会打乱数据结构,得到不被期望的结果,这种情况下需要使用间接排序。

    (2). 间接排序
    In [740]: a=np.array([[2,3,5],[1,1,4],[1,2,3]])
    
    In [741]: a
    Out[741]: 
    array([[2, 3, 5],
           [1, 1, 4],
           [1, 2, 3]])
    
    In [742]: idx1=np.argsort(a[:,0])
    
    In [743]: a[idx1]
    Out[743]: 
    array([[1, 1, 4],
           [1, 2, 3],
           [2, 3, 5]])
    
    In [744]: idx2=np.lexsort((a[:,0],a[:,2]))
    
    In [745]: a[idx2]
    Out[745]: 
    array([[1, 2, 3],
           [1, 1, 4],
           [2, 3, 5]])
    

    argsort可用于单键间接排序,lexsort可用于多键间接排序。

    (3). 随机排序
    In [763]: a=np.arange(12).reshape((3,4))
    
    In [764]: a
    Out[764]: 
    array([[ 0,  1,  2,  3],
           [ 4,  5,  6,  7],
           [ 8,  9, 10, 11]])
    
    In [765]: np.random.shuffle(a)
    
    In [766]: a
    Out[766]: 
    array([[ 4,  5,  6,  7],
           [ 0,  1,  2,  3],
           [ 8,  9, 10, 11]])
    
    In [768]: idx=np.random.permutation(a.shape[1])
    
    In [769]: a[:,idx]
    Out[769]: 
    array([[ 4,  5,  7,  6],
           [ 0,  1,  3,  2],
           [ 8,  9, 11, 10]])
    

    方法一np.random.shuffle只能沿第一个轴进行随机排序,方法二是通过np.random.permutation,该方法也只能沿第一个轴随机排序,但在输入参数xint类型时,会对np.arange(x)进行随机排序,可以快速生成乱序索引,再通过索引查找得到乱序数组。

    (4). 分区排序
    In [799]: a=np.array([2,3,1,5,4,0,8])
    
    In [800]: np.partition(a,1)
    Out[800]: array([0, 1, 3, 5, 4, 2, 8])
    
    In [801]: np.partition(a,4)
    Out[801]: array([0, 1, 2, 3, 4, 5, 8])
    

    分区排序是一种不完整的排序,用于不需要获取完整排序序列的情况下。该方法只保证kth指定位置的元素是正确排序的,其他小于该元素的元素前移,大于的后移。可用于快速找出第k大或第k小的元素。
    也可通过ndarray.partition调用,axis参数指定轴方向,还有对应的np.argpartition用于获取分区后的索引。

    4. 去重

    In [775]: a=np.array([3,2,2,3,1,1,4])
    
    In [776]: np.unique(a,return_index=True,return_inverse=True,return_counts=True,axis=None)
    Out[776]: 
    (array([1, 2, 3, 4]),
     array([4, 1, 0, 6], dtype=int64),
     array([2, 1, 1, 2, 0, 0, 3], dtype=int64),
     array([2, 2, 2, 1], dtype=int64))
    
    In [777]: a=np.array([[1,3],[2,4],[1,3]])
    
    In [778]: np.unique(a,axis=0)
    Out[778]: 
    array([[1, 3],
           [2, 4]])
    

    axis指定去重的轴,默认None会将数组展开后再去重。
    返回值一为去重后的有序值列表;
    返回值二为唯一值在原数组中的索引,仅在return_index=True时提供;
    返回值三为根据唯一值重建原数组的索引,仅在return_inverse=True时提供;
    返回值四为唯一值的出现计数,仅在return_counts=True时提供。

    5. 拆分

    (1). 索引拆分

    In [780]: a=np.arange(9).reshape((3,3))
    
    In [781]: a[:2,:],a[2:,:]
    Out[781]: 
    (array([[0, 1, 2],
            [3, 4, 5]]), array([[6, 7, 8]]))
    
    In [782]: a[a>2],a[~(a>2)]
    Out[782]: (array([3, 4, 5, 6, 7, 8]), array([0, 1, 2]))
    
    In [790]: idx=np.random.permutation(a.shape[0])
    
    In [791]: sp_idx=int(a.shape[0]*0.8)
    
    In [792]: a[idx[:sp_idx]],a[idx[sp_idx:]]
    Out[792]: 
    (array([[3, 4, 5],
            [6, 7, 8]]), array([[0, 1, 2]]))
    

    最灵活的方式,复杂的拆分需要写较多的代码,可使用其他方法配合生成用于拆分的索引,比如使用np.digitize进行分箱。

    (2). 拆分方法

    In [802]: a=np.arange(8)
    
    In [803]: np.split(a,2)
    Out[803]: [array([0, 1, 2, 3]), array([4, 5, 6, 7])]
    
    In [805]: np.split(a,[2,5])
    Out[805]: [array([0, 1]), array([2, 3, 4]), array([5, 6, 7])]
    
    In [806]: a=a.reshape((2,4))
    
    In [807]: a
    Out[807]: 
    array([[0, 1, 2, 3],
           [4, 5, 6, 7]])
    
    In [809]: np.split(a,[1,3],axis=1)
    Out[809]: 
    [array([[0],
            [4]]), array([[1, 2],
            [5, 6]]), array([[3],
            [7]])]
    

    第二个参数indices_or_sections指定分割方式,int类型表示等分数量,一维数组类型表示用于分割的索引值,例如[2,5]表示分割为a[:2],a[2:5],a[5:]
    第三个参数axis可以指定轴方向。

    相关文章

      网友评论

          本文标题:[python][科学计算][numpy]使用指南6-重构

          本文链接:https://www.haomeiwen.com/subject/eqvtuqtx.html