[python][科学计算][numpy]使用指南6-重构

作者: jiedawang | 来源:发表于2019-02-27 00:16 被阅读0次

[python][科学计算][numpy]使用指南6-重构
python计算基础
Numpy
Numpy | 基础操作(矩阵)
Python机器学习的一些常用库
NumPy 超详细教程（1）：NumPy 数组
NumPy 超详细教程（1）：NumPy 数组
【Chapter 4】 NumPy基础：数组和矢量计算
Python：一篇文章掌握Numpy的基本用法
numpy 笔记

最后一次更新日期： 2019/4/13

NumPy 是一个 Python 包。它代表 “Numeric Python”。它是一个由多维数组对象(ndarray)和用于处理数组的例程集合组成的库。
使用NumPy，开发人员可以执行以下操作：

数组的算数和逻辑运算。

傅立叶变换和用于图形操作的例程。

与线性代数有关的操作。 NumPy 拥有线性代数和随机数生成的内置函数。

使用前先导入模块：
import numpy as np

1. 类型转换

In [619]: a=np.array([[1,2],[3,4]])

In [620]: a.dtype
Out[620]: dtype('int32')

In [621]: a=a.astype('float64')

In [622]: a.dtype
Out[622]: dtype('float64')

In [623]: a=np.int32(a)

In [624]: a.dtype
Out[624]: dtype('int32')

使用ndarray.astype方法或是使用数据类型同名方法都可以转换类型，关于numpy支持的数据类型可以查看属性章节。转换类型后返回一个新数组。

2. 重塑

(1). 改变形状

In [625]: a=np.array([[1,2],[3,4]])

In [626]: a.reshape((1,4))
Out[626]: array([[1, 2, 3, 4]])

In [627]: a.reshape((-1,4))
Out[627]: array([[1, 2, 3, 4]])

使用tuple类型的参数声明新的形状。允许有一个新轴的大小为-1，表示自动计算。
改变前后元素数size需要保持一致。元素在轴上的排列是从最后一个轴开始往前面的轴方向上堆叠，见如下图示，可通过order参数指定其他排序方式。轴的相对位置不会改变，所以一些复杂的变形可能需要结合transpose或swapaxes此类轴交换方法使用。

(2). 平铺

In [640]: a.ravel()
Out[640]: array([1, 2, 3, 4])

In [641]: a.flatten()
Out[641]: array([1, 2, 3, 4])

将数组平铺为向量，等效于reshape((-1,))，可通过order参数指定其他排序方式。

(3). 转置

In [643]: a.T
Out[643]: 
array([[1, 3],
       [2, 4]])

数组为一维时转置无效，为二维时即矩阵的转置，多于二维时交换第一个和最后一个轴。

(4). 轴交换

In [646]: a.swapaxes(0,1)
Out[646]: 
array([[1, 3],
       [2, 4]])

In [647]: a.transpose([1,0])
Out[647]: 
array([[1, 3],
       [2, 4]])

swapaxes一次只能指定两个轴进行交换，transpose可以重新为所有轴排序。

3. 排序

(1). 直接排序

In [734]: a=np.array([[2,3],[1,4]])

In [735]: np.sort(a,axis=None)
Out[735]: array([1, 2, 3, 4])

In [736]: a.sort(axis=0)

In [737]: a
Out[737]: 
array([[1, 3],
       [2, 4]])

ndarray.sort会直接在原数组上排序，可通过第一个参数axis指定排序的轴，会将沿着该轴方向的每个向量单独排序，默认-1，除沿最后一个轴外，指定其他轴都会在排序时生成数据的临时副本，因此沿最后一个轴排序最快。
等效方法np.sort，返回的是排序后的副本，还可指定axis=None，会将数组展开再排序。
当数组的维度具备实际含义时，直接排序会打乱数据结构，得到不被期望的结果，这种情况下需要使用间接排序。

(2). 间接排序

In [740]: a=np.array([[2,3,5],[1,1,4],[1,2,3]])

In [741]: a
Out[741]: 
array([[2, 3, 5],
       [1, 1, 4],
       [1, 2, 3]])

In [742]: idx1=np.argsort(a[:,0])

In [743]: a[idx1]
Out[743]: 
array([[1, 1, 4],
       [1, 2, 3],
       [2, 3, 5]])

In [744]: idx2=np.lexsort((a[:,0],a[:,2]))

In [745]: a[idx2]
Out[745]: 
array([[1, 2, 3],
       [1, 1, 4],
       [2, 3, 5]])

argsort可用于单键间接排序，lexsort可用于多键间接排序。

(3). 随机排序

In [763]: a=np.arange(12).reshape((3,4))

In [764]: a
Out[764]: 
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [765]: np.random.shuffle(a)

In [766]: a
Out[766]: 
array([[ 4,  5,  6,  7],
       [ 0,  1,  2,  3],
       [ 8,  9, 10, 11]])

In [768]: idx=np.random.permutation(a.shape[1])

In [769]: a[:,idx]
Out[769]: 
array([[ 4,  5,  7,  6],
       [ 0,  1,  3,  2],
       [ 8,  9, 11, 10]])

方法一np.random.shuffle只能沿第一个轴进行随机排序，方法二是通过np.random.permutation，该方法也只能沿第一个轴随机排序，但在输入参数x为int类型时，会对np.arange(x)进行随机排序，可以快速生成乱序索引，再通过索引查找得到乱序数组。

(4). 分区排序

In [799]: a=np.array([2,3,1,5,4,0,8])

In [800]: np.partition(a,1)
Out[800]: array([0, 1, 3, 5, 4, 2, 8])

In [801]: np.partition(a,4)
Out[801]: array([0, 1, 2, 3, 4, 5, 8])

分区排序是一种不完整的排序，用于不需要获取完整排序序列的情况下。该方法只保证kth指定位置的元素是正确排序的，其他小于该元素的元素前移，大于的后移。可用于快速找出第k大或第k小的元素。
也可通过ndarray.partition调用，axis参数指定轴方向，还有对应的np.argpartition用于获取分区后的索引。

4. 去重

In [775]: a=np.array([3,2,2,3,1,1,4])

In [776]: np.unique(a,return_index=True,return_inverse=True,return_counts=True,axis=None)
Out[776]: 
(array([1, 2, 3, 4]),
 array([4, 1, 0, 6], dtype=int64),
 array([2, 1, 1, 2, 0, 0, 3], dtype=int64),
 array([2, 2, 2, 1], dtype=int64))

In [777]: a=np.array([[1,3],[2,4],[1,3]])

In [778]: np.unique(a,axis=0)
Out[778]: 
array([[1, 3],
       [2, 4]])

axis指定去重的轴，默认None会将数组展开后再去重。
返回值一为去重后的有序值列表；
返回值二为唯一值在原数组中的索引，仅在return_index=True时提供；
返回值三为根据唯一值重建原数组的索引，仅在return_inverse=True时提供；
返回值四为唯一值的出现计数，仅在return_counts=True时提供。

5. 拆分

(1). 索引拆分

In [780]: a=np.arange(9).reshape((3,3))

In [781]: a[:2,:],a[2:,:]
Out[781]: 
(array([[0, 1, 2],
        [3, 4, 5]]), array([[6, 7, 8]]))

In [782]: a[a>2],a[~(a>2)]
Out[782]: (array([3, 4, 5, 6, 7, 8]), array([0, 1, 2]))

In [790]: idx=np.random.permutation(a.shape[0])

In [791]: sp_idx=int(a.shape[0]*0.8)

In [792]: a[idx[:sp_idx]],a[idx[sp_idx:]]
Out[792]: 
(array([[3, 4, 5],
        [6, 7, 8]]), array([[0, 1, 2]]))

最灵活的方式，复杂的拆分需要写较多的代码，可使用其他方法配合生成用于拆分的索引，比如使用np.digitize进行分箱。

(2). 拆分方法

In [802]: a=np.arange(8)

In [803]: np.split(a,2)
Out[803]: [array([0, 1, 2, 3]), array([4, 5, 6, 7])]

In [805]: np.split(a,[2,5])
Out[805]: [array([0, 1]), array([2, 3, 4]), array([5, 6, 7])]

In [806]: a=a.reshape((2,4))

In [807]: a
Out[807]: 
array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [809]: np.split(a,[1,3],axis=1)
Out[809]: 
[array([[0],
        [4]]), array([[1, 2],
        [5, 6]]), array([[3],
        [7]])]

第二个参数indices_or_sections指定分割方式，int类型表示等分数量，一维数组类型表示用于分割的索引值，例如[2,5]表示分割为a[:2],a[2:5],a[5:]。
第三个参数axis可以指定轴方向。