机器学习项目通常采用下面的步骤来实施:
1. 确定目标: 做所有事情的第一步,先搞清楚自己要达到的目标,然后以此为基线进行后续操作。
2.收集数据:根据目标收集数据集,确定数据集中的特征项,数据集规模,数据存储格式(CSV、parquet、No-SQL还是关系型数据库)。
3.预处理数据:去除数据中对目标无用的信息,根据要使用的模型可能需要对数据进行缩放,将数字型数据缩放到[0,1]或[-1,1]区间。在处理好的数据上进行探索性分析,建立对数据的感性认识。这一步主要使用可视化方式展示数据。
4.为模型准备数据:将数据复制一份出来,后续的操作都在复本上进行。将数据分为3份:训练集、验证集、测试集。训练集和验证集用来训练模型和确定超参数,测试集用来评估模型性能。
5.在数据集上训练模型,并对模型进行评估,选定性能最好的模型。 回归模型的评估指标有均方误差(), 平均绝对误差(),R^2(1-),其中 。分类评估指标通常有精度(),二分类问题还可使用查准率,召回率。
6.在训练模型时需要对模型超参数进行调整,使模型性能达到最好。调整超参数通常采用用网格搜索,将需要调整的超参数的所有可能取值组合成笛卡尔积,对每组值分别计算模型评估指标,选择使模型性能最好的一组参数。
7.训练好模型后在测试集上评估其性能,如果能满足业务目标就将模型部署到运行环境,监控模型实际运行情况。
上述只是机器学习项目不可缺少的步骤,实际操作时每个步骤都还有大量的工作要做,不能一一书写,只能实践。
参考文献:
《机器学习实战》Aurelien Geron 著 王静源等译,机械工业出版社2018
网友评论