numpy简要(1)

作者: 奇而思 | 来源:发表于2018-06-13 22:54 被阅读6次

4.1 ndarray:多维数组

数组使得你可以使用类似于标量数据运算的操作,作用于大量数据。

ndarray存储同类型的数据,有两个属性:shape 返回一个tuple,描述每一个维度的尺寸,dtype 返回数据类型。

创建数组

ndarray的默认数据类型为float64。

np.array 函数

data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
函数名称 功能
np.zeros(tuple) ,zeros_like 返回全是0的数组,tuple用于指定维度
ones,ones_like 返回全是1的数组,tuple用于指定维度
empty(tuple), empty_like() 返回空数组,没有进行初始化,要小心
full, full_like 返回给定类型和shape,填充为fill value的值
eye,identity 返回n维单位矩阵

数据类型

ndarray属性的dtype存储类型。numpy中的类型可以与c或Fortran进行对比和交互。

使用astype函数进行转换。

  • float转换为int时,会截断小数点后的值。
  • 如果你的数组内容是代表数字的string,可以使用a.astype(np.float64) 进行转换。
  • astype函数总是创建一个新数组

算数运算

数组使得我们不需要写for循环就可以操作大量数据,这在numpy中称为向量化(vectorization)。任何相同size的数组的算数运算都等同于每个对应的元素的算数运算

不同size的数组运算称为广播(broadcasting) 在附录A进行介绍

基本的索引和切片

一维数组

形式上像列表索引,其实质是对原数组的view,这意味着,对这个view的操作会映射到原数组上。

a=np.arange(10)
a[5:8]=12
print(a)
arr = a[5:8]
arr[:]=23
print(a)
==========================output
[ 0  1  2  3  4 12 12 12  8  9]
[ 0  1  2  3  4 23 23 23  8  9]

从上面还可以看到,如果将一个标量传递给一个数组,那么该值会发生广播

如果确实需要拷贝,可以使用ndarray的copy函数,例如arr[5:8].copy()

多维数组

对于多维数组,最外侧的是axis0,后面依次是axis1,axis2。对于二维数组,可以理解成行(axis0),列(axis1).

在索引时,可以使用array[0][2] 形式,也可以使用array[0,2] 形式。当索引数量小于维数时,得到的是小一维的数组,例如:

arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d[0]
=========================
array([[1, 2, 3],
       [4, 5, 6]])

多维数组切片时,也是分别针对每一维进行切片,只有一个数字则只切axis0. arr2d[1,:2] arr2d[1:3,2:4]

记住,切片是view,会改变原数组

布尔索引 boolean indexing

使用boolean索引返回True对应的元素组成的数组。在进行条件组合时,使用& | ~ 进行“和,或,求反”,不要使用python内置的and,or。

布尔索引总是创建copy。

对于二维数据的操作,使用pandas将会更方便。

花式索引 fancy indexing

使用一个整数数组的形式进行索引。会按照索引数组的顺序抽取数组元素组成新的数组。

如果传递两个整数数组,则会将两个整数数组配对成tuple,抽取tuple对应的元素,形成一维数组。

如果传递一个全索引: ,和整数数组,则会按照整数数组的顺序抽取数组元素组成新数组,类似于使用一个整数数组的情况,但是可以指定到任意维度。

arr = np.arange(32).reshape((8,4))
print("Origin:\n",arr)
print("arr[[1,5,7,2]]:\n",arr[[1,5,7,2]])
print("arr[[1,5,7,2],[0,1,0,1]]:\n",arr[[1,5,7,2],[0,1,0,1]])
print("arr[[1,5,7,2]][[0,3,1,2],:]\n",arr[[1,5,7,2]][[0,3,1,2],:])
===================================================
Origin:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]
arr[[1,5,7,2]]:
 [[ 4  5  6  7]
 [20 21 22 23]
 [28 29 30 31]
 [ 8  9 10 11]]
arr[[1,5,7,2],[0,1,0,1]]:
 [ 4 21 28  9]
arr[[1,5,7,2]][[0,3,1,2],:]
 [[ 4  5  6  7]
 [ 8  9 10 11]
 [20 21 22 23]
 [28 29 30 31]]

花式索引会常见数组的复制,生成一个新数组

数组转置和轴变换(transposing arrays and swapping axes)

转置也是一种view,不产生新数组

ndarray有transpose()方法或T 属性都可以求转置。转置在使用np.dot 方法求内积时很有用。

对于多维数组,transpose方法接受一个tuple,指明将原axis按照tuple的顺序进行交换,以三维为例:

a.transpose(2,1,0) 则 $a_{ijk} = b_{kji}$ ,a.transpose(1,2,0) 则 $a_{ijk}=b_{jki}$

a.Tswapaxes 方法的一种简写,使用swapaxes需要提供两个axis,这两个互换。同样可以使用transpose方法实现。a.T 相当于所有axis倒过来。

arr = np.arange(16).reshape((2,2,4))
arr2 = arr.transpose(1,2,0)
print('origin:\n',arr)
print('arr.transpose(1,2,0):\n',arr2)
print('{0:d} == {1:d}'.format(arr[0,1,3],arr2[1,3,0]))
arr3 = arr.swapaxes(1,2)
print(arr3 == arr.transpose(0,2,1))
print(arr.swapaxes(0,2) == arr.transpose(2,1,0))
print(arr.T == arr.transpose(2,1,0))
=====================================output
origin:
 [[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]
arr.transpose(1,2,0):
 [[[ 0  8]
  [ 1  9]
  [ 2 10]
  [ 3 11]]

 [[ 4 12]
  [ 5 13]
  [ 6 14]
  [ 7 15]]]
7 == 7
[[[ True  True]
  [ True  True]
  [ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]
  [ True  True]
  [ True  True]]]
[[[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]]
[[[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]

 [[ True  True]
  [ True  True]]]

4.2 全局方法universal function

universal function 或称为ufunc,是对array的每个元素进行处理,可以将其看成是普通函数的向量化封装。

分为:

  • 一元ufunc:abs,fabs, sqrt, square, exp, log, log10, log2, log1p, sign, ceil, floor, rint, modf, isnan, isfinite, isinf, cos, cosh, sin, sinh, tan, tanh, logical_not(~arr)
  • 二元ufunc(需要两个参数):add, subtract, multiply, divide, floor_divide, power, maximum, fmax, minimum, fmin, mod, copysign, greater, greater_equal, less, less_equal, equal, not_equal, logical_and, logical_or, logical_xor

ufunc一般返回一个数组,特别地,modf返回小数部分和整数部分两个数组。

ufunc 一般可以使用out 参数指定结果输出到那个数组,通过将该值制定为原数组可以实现对其更改(operate in-place).

4.3 数组导向编程

通过向量化来完成,这样就不用写循环遍历了。这种速度快1,2个量级。broadcasting是向量化的十分重要的工具。后面会讲。

这里使用np.meshgrid 来举例。np.meshgrid 用于产生坐标网格,接受n个1-D数组,$x_i$ , 返回n个shape为($l_1$,$l_2$ ,$\dots$ ,$l_n$ )的ndarray。其中$l_i$ = len($x_i$ )。

条件判断 np.where

np.where 接受三个参数,一个boolean array,2个array-like,分别记为x,y。如果boolarray为真,则取x的值,否则取y的值。x,y可以不是array,可以是scale。

np.where(arr>0, 2, -2) : 将arr中大于0的置为2,其他的置为-2

np.where(arr>0, 2, arr) : arr中大于0的置为2, 其他的不变。

数学和统计方法

基本的统计方法有:sum, mean, std, var, min, max, argmin, argmax, cumsum, cumprod

使用时可以调用array实例的方法,也可以使用Numpy的顶层函数(使用np.sum(array))

向mean,sum可以接受axis参数,用于指定对于哪个轴进行计算。

argmax, argmin 返回最大,最小值的索引

cumsum, cumprod 是累计加和(从0开始)或累乘(从1开始)得到一个新数组。

arr = np.random.randn(3,4)
print(arr.mean())
print(np.sum(arr))
print(arr.mean(axis=0))
print(arr.cumsum(axis=0))

布尔数组的方法

  • 使用sum()统计True的个数
  • 使用any(),如果有一个True就返回True
  • 使用all(),所有都为True返回True

排序

使用np.sort进行排序。返回一个排序后的拷贝。对于多维数组,可以使用axis参数直接指定对那个轴进行排序。

集合操作

对于1维数组,numpy有一些几何操作:

  • unique(x) : 返回排序后的,x数组的集合
  • intersect1d(x,y): 返回排序后的,x,y共有元素
  • union1d(x,y): 返回排序后的x,y并操作
  • in1d(x,y): 返回boolean array, x in y
  • setdiff1d(x,y): 差集,在x,不在y的元素
  • setxor1d(x,y): 在x或在y,但是不同时在的元素

相关文章

网友评论

    本文标题:numpy简要(1)

    本文链接:https://www.haomeiwen.com/subject/evnseftx.html