1. 明确需求(因变量Y)
2. 数据清洗(缺失值、异常值、分类变量)
异常值:默认三倍标准差之外
分类变量:多为汉字和字母标识
3. 相关分析(将每个待选X与Y求相关系数、画散点图)
4. 分隔测试集与训练集
5. 回归(F检验、t检验、调整R^2)
6. 调优(对着高斯马尔科夫)
a. 残差服从正态分布
b. 同方差
c. 内生性
d. 共线性
f. 序列相关性
7. 模型优化(交互项、高次项、时间季节趋势等)
8. 逐步回归、交叉验证
9. 测试
推荐书:《数据挖掘导论》--人民邮电出版社
网友评论