1. 目标定义
- 任务理解
- 指标确定
2. 数据采样
数据是所有模型的基础,所以他的质量很重要:1. 相关性 2. 可靠性 3. 有效性
抽样方式:
- 随机抽样
- 等距抽样
- 分层抽样:相同层次的数据都具有相同的抽取概率,对不同层次的数据可以设置不同的抽取概率。
- 分类抽样:对数据进行分类,然后再抽样
- 从起始顺序抽样
3. 数据整理
数据在使用之前,我们有必要提高数据的质量,它很有可能存在一些outlier 或者default,这些都会影响数据的准确性。
4. 建模
通过选择合适的算法,对数据进行建模分析,从而得到数据内部的特征和预测值。
5. 模型评价
在不同的数据抽样得到的数据下,得到的模型可能会有偏差,所以有必要对模型进行对比评价,从而得到最好的模型。同时,根据业务进行对模型进行运用和解释也是模型评价的一个作用。
网友评论