图解Numpy精翻版，一文带你入门Python数据处理

作者: 学术Fun | 来源:发表于2019-08-25 14:23 被阅读0次

(关注'AI新视野'公众号，发送‘资料’二字，免费获取50G人工智能视频教程！)

本文精心翻译自Jay Alammar的博客：https://jalammar.github.io/visual-numpy/，其用图解的方式详细介绍了 NumPy的功能和使用示例。

image

NumPy 是 Python 生态中数据分析、机器学习和科学计算的基础。它极大地简化了向量和矩阵的操作处理。Python 的一些主要软件包（如 scikit-learn、SciPy、pandas 和 tensorflow）都以 NumPy 作为其架构的基础部分。除了能对数值数据进行切片（slice）和切块（dice）之外，使用 NumPy 还能为处理和调试上述库中的高级实例带来极大的便利。

本文将介绍 NumPy 的一些主要方法，以及在将数据送入机器学习模型之前，numpy是如何表示不同类型数据（表格、图像、文本等）的。

import numpy as np

创建数组

通过传递一个 python 列表，并使用 np.array（）来创建 NumPy 数组。python 创建的数组如下图右所示：

image

NumPy 提供了一些初始化数组的方法，例如 ones()、zeros() 和 random.random() 等方法。只要传递希望 NumPy 生成的元素维数即可：

image

一旦创建了数组，就可以随意操作啦。

数组运算

下面创建两个 NumPy 数组来展示数组运算功能。下图两个数组分别为 data 和 ones：

image

将它们按位置相加（即每行对应相加），直接输入 data + ones 即可：

image

除了加，还可以进行如下操作：

image

数组和单个数字之间也可以进行运算操作（即向量和标量之间的运算）。比如说，数组表示以英里为单位的距离，希望将其单位转换为千米。只需输入 data * 1.6 即可：

image

NumPy 是通过广播机制（broadcasting）来实现的，通过判断维数，来推测要进行的运算。

索引

可以像对 python 列表进行切片一样，对 NumPy 数组进行任意的索引和切片：

image

聚合

NumPy 还提供聚合功能：

image

除了 min、max 和 sum 之外，还可以使用 mean 得到平均值，使用 prod 得到所有元素的乘积，使用 std 得到标准差等等。

更多维度

上述的例子都是在一个维度上处理向量。NumPy 优雅的关键在于能够将上述所有方法应用到任意数量的维度。

创建矩阵

可以传递下列形状的 python 列表，使 NumPy 创建一个矩阵来表示它：

np.array([[1,2],[3,4]])

也可以使用上面提到的方法（ones()、zeros() 和 random.random()），只要传入一个描述创建的矩阵维数的元组即可：

image

矩阵运算

如果两个矩阵大小相同，可以使用算术运算符（+-*/）对矩阵进行加和乘。NumPy 将其视为 position-wise 运算：

image

也可以对不同大小的两个矩阵执行此类算术运算，但前提是某一个维度为 1（如矩阵只有一列或一行），在这种情况下，NumPy 使用广播规则执行算术运算：

点乘

算术运算和矩阵运算的一个关键区别是矩阵乘法使用点乘。NumPy 为每个矩阵赋予 dot() 方法，可以用它与其他矩阵执行点乘操作：

image

在上图的右下角添加了矩阵维数，来强调这两个矩阵的临近边必须有相同的维数。可以把上述运算视为：

image

矩阵索引

当处理矩阵时，索引和切片操作将更加有用：

image

矩阵聚合

可以像聚合向量一样聚合矩阵：

image

不仅可以聚合矩阵中的所有值，还可以使用 axis 参数执行跨行或跨列聚合：

image

转置和维度重塑

处理矩阵时的一个常见需求是旋转矩阵。当需要对两个矩阵执行点乘运算并对齐它们共享的维度时，通常需要进行转置。NumPy 数组有一个方便的方法 T 来求得矩阵转置：

image

在某些应用中，需要对特定矩阵的变换维度。在机器学习应用中，经常会有当某个模型对输入形状的要求与的数据集不同。NumPy 中的 reshape() 方法就可以发挥作用。只需将矩阵所需的新维度赋值给它即可。可以为维度赋值-1，NumPy 可以根据的矩阵推断出正确的维度：

image

实际用法

以下是 NumPy 可实现的有用功能的实例演示。

公式

均方差公式，它是监督机器学习模型处理回归问题的核心：

image

在 NumPy 中实现该公式很容易：

image

这样做的好处在于，NumPy 并不关心 predictions 和 labels 包含一个值还是一千个值（只要它们大小相同）。可以通过一个示例依次执行上面代码行中的四个操作：

image

预测和标签向量都包含三个值，也就是说 n 的值为 3。减法后，得到的值如下：

image

然后将向量平方得到：

image

对这些值求和：

image

得到的结果即为该预测的误差值和模型质量评分。

数据表达

电子表格、图像、音频等需要处理和构建模型所需的数据类型，其中很多都适合在 n 维数组中表示：

表格

电子表格就是二维矩阵。电子表格中的每个工作表都可以是它自己的变量。python 中最流行的表格抽象是 pandas 数据帧，其在 NumPy 之上构建。

image

音频

音频文件是样本的一维数组。每个样本都是一个数字，代表音频信号的一小部分。CD 质量的音频每秒包含 44,100 个样本，每个样本是-65535 到 65536 之间的整数。这意味着如果有一个 10 秒的 CD 质量 WAVE 文件，可以将它加载到长度为 10 * 44,100 = 441,000 的 NumPy 数组中。如果想要提取音频的前一秒，只需将文件加载到 audio 的 NumPy 数组中，然后获取 audio[:44100]。

下面是一段音频文件：

image

其他时间序列数据也可以同样表示（如股票随时间变化的价格）。

图像

图像是尺寸（高度 x 宽度）的像素矩阵。

如果图像是黑白（即灰度）的，则每个像素都可以用单个数字表示（通常在 0（黑色）和 255（白色）之间）。

下图是一个图像文件的部分：

image

如果图像是彩色的，则每个像素由三个数字表示------红、绿和蓝。在这种情况下，需要一个三维数组（因为每个单元格只能包含一个数字）。因此彩色图像由尺寸为（高 x 宽 x3）的 ndarray 表示：

image

欢迎关注全平台AI自媒体 “AI新视野”，第一时间获取人工智能学术、产业前沿！

网友评论

本文标题：图解Numpy精翻版，一文带你入门Python数据处理

本文链接：https://www.haomeiwen.com/subject/qoihectx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

图解Numpy精翻版，一文带你入门Python数据处理

创建数组

数组运算

索引

聚合

更多维度

创建矩阵

矩阵运算

点乘

矩阵索引

矩阵聚合

转置和维度重塑

更多维度

实际用法

公式

数据表达

表格

音频

图像

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

呆鸟的Python数据分析

和大叔走大数据应用之路

python

机器学习

软件开发