一、导入数据
- 一般使用pandas来处理 csv格式 或 pickle模块处理pickle格式
- 将获取的数据处理为训练特征(features) 和 目标(target)两部分
二、分析数据
- 计算相关的数学特征,包含不限于 均值、极值、中值、方差/标准差等。
- 处理数据集中的异常值,视项目对异常值的友好程度而定
- 数据分割,处理为训练数据和测试数据
三、确定模型衡量标准
- 确定指标,如使用R-Square作为决策树模型评分标准
四、分析模型表现
- 观测不同参数下,模型在训练集和验证集上的表现。如绘制学习曲线和复杂度曲线,观测不同参数值对模型的影响
五、选择最优参数、获取最优模型
- 如使用网格训练法和交叉验证确定最优参数、并获取最优模型
六、作出预测
- 使用测试集进行测试,并对测试结果进行评分
网友评论