机器学习的通用工作流程

作者: 庵下桃花仙 | 来源:发表于2019-03-29 22:55 被阅读0次

1 定义问题，收集数据集

搞清楚输入的数据是什么？要预测什么？（通常数据可用性是限制因素）
搞清楚面对的是什么类型的问题，便于选择模型架构、损失函数等
假设输出是可以根据输入进行预测的
输入数据中包含足够多的信息，足以学习输入和输出之间的关系
对于非平稳问题（服装推荐引擎）：
1、不断利用最新数据训练模型；
2、在一个问题是平稳的时间尺度上收集数据。
机器学习有个假设：未来的规律与过去相同，事实往往并非如此。

2 选择衡量成功的指标

精度？准确率？召回率？客户保留率？衡量成功的指标指引我们选择损失函数。

问题	衡量成功的指标
平衡分类问题（每个类别可能性相同）	精度或接受者操作特征曲线下面积（area under the receiver operating characteristic curve, ROC AUC）
平衡问题	准确率和召回率
排序问题或多标签分类	平均准确率均值（mean average precision）

这个阶段的目的是获得统计功效（statistical power），开发一个小模型，打败随机基准（dumb baseline）。如MNIST中，任何精度大于0.1可以说具有统计功效。
还需要选择3个关键参数

1、添加更多的层
2、让每一层变的更大
3、训练更多的轮次

一旦开发出满意的模型配置，在所有可用数据（训练数据+验证数据）上训练模型，在测试集上最后评估一次。如果性能差，则意味验证流程不可靠，或者调参时验证数据上过拟合，选择更可靠的评估方法，如重复K折验证。

本文标题：机器学习的通用工作流程

本文链接：https://www.haomeiwen.com/subject/bumhbqtx.html