
前言
Scikit-learn是目前Python环境下最常用也是最好用的机器学习函数库。Sklean里边几乎集成了所有经典的机器学习算法,同时配以非常简单的实现语句(通常为1-2行代码)以及模式化的调参过程,使得我们可以花费更多时间在特征工程及数据处理上,并且使得我们建模的过程集中于算法比较以及模型选择上。
当然,Sklearn并不是没有他的弊端,比如过于简单的语句使得其功能相对固定,这就让我们构建定制化的模型变得相对困难。以个人经验来说,当我们需要换掉模型中的损失函数或其他一些评判方式时,我们必须从源代码中找出对应模块,然后按照源代码的方式来编写自己需要的程序。
虽然听起来很麻烦,但Sklearn还是为我们提供了非常大的便利,如果每一个算法都要由我们自己从零开始搭建的话,且不说费时费力,单单是代码的可靠性我们就已经无法保证。从这个角度来讲,Sklearn的确是目前机器学习的首选函数库。
基本语句及格式介绍
Sklearn内部有非常多的模块,每个模块的功能都很丰富,但是调用的方式却基本上是一致的。如下代码所示,我们这里边用到了Sklearn的预处理模块,用到了K-NN算法构建模型,用到了训练集及测试集分离模块等等,从中不难看出,读Sklearn的代码像是在读文章一样,一目了然且很容易get到写代码者的意图。

数据预处理
标准化

归一化

二值化

分类变量的编码

补全缺失值

创建高次幂特征

模型的构建
监督学习模型

无监督学习

构建模型

利用模型进行预测

结语
今天为大家简单介绍了Sklearn内的语句以及构建模型的流程,同时也为大家展示了Sklearn语句的格式,总体来讲是很好记忆的,具体的细节需要大家参考Sklearn的官方文档来细致的了解。
想成为一名合格的机器学习工程师吗?微信扫码关注“机器学习学社”获取每天一份的新鲜咨询,为你开拓属于你自己的机器学习之路
网友评论