机器学习是从数据创建模型开始的,因此首先了解怎样表示数据尤为重要。
Scikit-Learn认为表示数据的最好方法就是用数据表的形式。
数据表
基本数据表就是一个二维的网格数据,其中的每一行代表样本,每一列代表了构成每个样本的相关特征。
我们以鸢尾花数据集为例进行说明:
上述表格布局通过二维数组或矩阵形式将信息清楚的表示了出来,这类矩阵我们通常将其称为特征矩阵,特征矩阵通常被简记为X。
除了特征矩阵以外,我们还需要一个目标数组或者标签,通常被记为y。
我们通过Seaborn对数据进行可视化:
我们再对整体数据集进行形如混淆矩阵的图像可视化,由此可以清楚的看到每个特征之间的关联:
有了上述操作后,就可以开始学习Scikit-Learn的机器学习评估器API,对我们的数据进行训练和预测。
网友评论