机器学习就这几步

作者: 陈亮2019 | 来源:发表于2018-12-28 10:39 被阅读0次

机器学习项目通常采用下面的步骤来实施：

1. 确定目标：做所有事情的第一步，先搞清楚自己要达到的目标，然后以此为基线进行后续操作。

2.收集数据：根据目标收集数据集，确定数据集中的特征项，数据集规模，数据存储格式（CSV、parquet、No-SQL还是关系型数据库）。

3.预处理数据：去除数据中对目标无用的信息，根据要使用的模型可能需要对数据进行缩放，将数字型数据缩放到[0,1]或[-1,1]区间。在处理好的数据上进行探索性分析，建立对数据的感性认识。这一步主要使用可视化方式展示数据。

4.为模型准备数据：将数据复制一份出来，后续的操作都在复本上进行。将数据分为3份：训练集、验证集、测试集。训练集和验证集用来训练模型和确定超参数，测试集用来评估模型性能。

5.在数据集上训练模型，并对模型进行评估，选定性能最好的模型。回归模型的评估指标有均方误差（ $\frac{1}{N} \sum_{i=1}^N(y_{i}-\hat{y_{i}} )^2$ ）, 平均绝对误差( $\frac{1}{N} \sum_{i=1}^N|y_{i}-\hat{y_{i}} |$ )，R^2(1- $\frac{\frac{1}{N} \sum_{i=1}^N(y_{i}-\hat{y_{i}} )^2 }{\frac{1}{N} \sum_{i=1}^N(y_{i}-\bar{y} )^2 }$ )，其中 $\bar{y} =\frac{1}{N}\sum_{i=1}^Ny_{i}$ 。分类评估指标通常有精度（ $\frac{1}{N}\sum_{i=1}^N 1(\hat{y_{i}}=y_{i} )$ ），二分类问题还可使用查准率，召回率。

6.在训练模型时需要对模型超参数进行调整，使模型性能达到最好。调整超参数通常采用用网格搜索，将需要调整的超参数的所有可能取值组合成笛卡尔积，对每组值分别计算模型评估指标，选择使模型性能最好的一组参数。

7.训练好模型后在测试集上评估其性能，如果能满足业务目标就将模型部署到运行环境，监控模型实际运行情况。

上述只是机器学习项目不可缺少的步骤，实际操作时每个步骤都还有大量的工作要做，不能一一书写，只能实践。

参考文献：

《机器学习实战》Aurelien Geron 著王静源等译，机械工业出版社2018

网友评论

本文标题：机器学习就这几步

本文链接：https://www.haomeiwen.com/subject/hkzjlqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

机器学习就这几步

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读