数据集拆分 数据均值标准化后,通常在机器学习中,我们会将数据集拆分为三个集合: 训练集 交叉验证集 测试集 划分方...[作者空间]
在机器学习中,我们会使用大量数据训练我们的模型。某些机器学习算法可能需要标准化数据才能正常工作。标准化是指特征缩放...[作者空间]
我们先在 ndarray 之间进行元素级加减乘除运算。为此,我们可以在 NumPy 中使用 np.add() 等函...[作者空间]
到目前为止,我们了解了如何使用索引进行切片以及选择 ndarray 元素。当我们知道要选择的元素的确切索引时,这些...[作者空间]
正如之前提到的,我们除了能够一次访问一个元素之外,NumPy 还提供了访问 ndarray 子集的方式,称之为切片...[作者空间]
现在我们来了解如何访问或修改 Pandas Series 中的元素。Pandas Series 的一大优势是我们能...[作者空间]
和 NumPy ndarray 一样,我们可以对 Pandas Series 执行元素级算术运算。 apples ...[作者空间]
Pandas DataFrames 是具有带标签的行和列的二维数据结构,可以存储很多类型的数据。如果你熟悉 Exc...[作者空间]
我们可以通过多种不同的方式访问 Pandas DataFrame 中的元素。通常,我们可以使用行和列标签访问 Da...[作者空间]
正如之前提到的,在能够使用大型数据集训练学习算法之前,我们通常需要先清理数据。也就是说,我们需要通过某个方法检测并...[作者空间]
在机器学习中,你很有可能会使用来自很多来源的数据库训练学习算法。Pandas 使我们能够将不同格式的数据库加载到 ...[作者空间]
为何要使用 Pandas? 机器学习算法能取得最近的飞速发展,部分原因就是我们可以用大量数据训练算法。但是,对于数...[作者空间]
使用颜色表示第三个变量 在 matplotlib 和 seaborn 中,向图形中添加第三个变量的最常见方式是使用...[作者空间]
折线图 折线图是一种很常见的图形,用于描绘一个数字变量相对于第二个变量的值的变化趋势。在散点图中,所有数据点都会绘...[作者空间]
调整后的条形图 在上节课,我们提到直方图和条形图分别可以描绘数字变量和分类变量的分布情况,长条的高度(或长度)表示...[作者空间]
分面 处理包含两个或多个变量的图形的一种实用方式是分面。采用分面技巧时,数据被划分为不相交的子集,通常根据分类变量...[作者空间]
簇状柱形图 为了描绘两个分类变量之间的关系,我们可以将在上节课见到的单变量条形图扩展为簇状柱形图。和标准条形图一样...[作者空间]
箱线图 箱线图是展示数字变量和分类变量之间关系的另一种方式。与小提琴图相比,箱线图更侧重于数据的摘要,主要报告每个...[作者空间]
小提琴图 我们可以通过几种方式绘制一个定量变量和另一个定量变量之间的关系,并表示不同抽象级别的数据。小提琴图是较低...[作者空间]
热图 热图是直方图的二维版本,可以替代散点图。和散点图一样,要绘制的两个数字变量的值位于坐标轴上。和直方图类似,图...[作者空间]