建模调参
内容介绍
- 线性回归模型:
线性回归对于特征的要求;
处理长尾分布;
理解线性回归模型; - 模型性能验证:
评价函数与目标函数;
交叉验证方法;
留一验证方法;
针对时间序列问题的验证;
绘制学习率曲线;
绘制验证曲线; - 嵌入式特征选择:
Lasso回归;
Ridge回归;
决策树; - 模型对比:
常用线性模型;
常用非线性模型;
5.模型调参:
贪心调参方法;
网格调参方法;
贝叶斯调参方法
算法原理
线性回归模型
决策树模型
GBDT模型
XGBoost 模型
线性回归&五折交叉验证&模拟真实业务情况
五折交叉验证
把数据集中一部分对训练集生成的参数进行测试,相对客观的判断这些参数对训练集之外的数据的符合程度。
正则化模型
L2正则化在拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是『抗扰动能力强』
L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。
模型调参
- 贪心算法:在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的仅是在某种意义上的局部最优解。
贪心算法没有固定的算法框架,算法设计的关键是贪心策略的选择。必须注意的是,贪心算法不是对所有问题都能得到整体最优解,选择的贪心策略必须具备无后效性,即某个状态以后的过程不会影响以前的状态,只与当前状态有关。
所以对所采用的贪心策略一定要仔细分析其是否满足无后效性。 - 网格调参:通过循环遍历参数的设置,尝试每一种参数的组合,返回最好的得分值的参数分支。
- 贝叶斯调参:贝叶斯优化通过基于目标函数的过去评估结果建立替代函数(概率模型),来找到最小化目标函数的值。贝叶斯方法与随机或网格搜索的不同之处在于,它在尝试下一组超参数时,会参考之前的评估结果,因此可以省去很多无用功。
网友评论