美文网首页R炒面
107-商业数据分析之支持向量机和树模型

107-商业数据分析之支持向量机和树模型

作者: wonphen | 来源:发表于2021-07-08 22:51 被阅读0次

1、支持向量机

§ 优点
• 支持向量机的学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值;
• 可用于线性和非线性分类问题;
• 可用于高维数据;
§ 缺点
• 拉格朗日乘子ai的数目是样本数目,因此难以应用于大样本分类问题;
• 主要应用于二分类问题。

2、决策树

§ 优点
• 不需要假设一个线性模型;推理过程容易理解,决策推理过程可以表示成If-Then形式;
• 推理过程完全依赖于属性变量的取值特点;
• 可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。
- 能够更好的处理变量之间的共线性问题;
- 能够通过一些参数来控制树的生长。

经典的决策树算法对应的属性划分方法:
• ID3(信息增益)
• C4.5(增益率)
• CART,Classification and Regression Trees
- 分类决策树:基尼指数
- 回归决策树:平方误差最小化

ID3 算法的问题:1、若把“编号”也作为一个候选划分属性,则其信息增益一般远大于其他属性。显然,这样的决策树不具有泛化能力,无法对新样本进行有效预测。2、信息增益对可取值数目较多的属性有所偏好。

C4.5 算法存在的问题:增益率准则对可取值数目较少的属性有所偏好。

为什么剪枝?
•“剪枝”是决策树学习算法对付“过拟合” 的主要手段;
• 可通过“剪枝”来一定程度避免因决策分支过多,以致于把训练集自身的一些特点当做所有数据都具有的一般性质而导致的过拟合。

预剪枝的优缺点:
§ 优点
• 降低过拟合风险
• 显著减少训练时间和测试时间开销
§ 缺点
• 欠拟合风险 :有些分支的当前划分虽然不能提升泛化性能,但在其基础上进行的后续划分却有可能导致性能显著提高。预剪枝基于“贪心”本质禁止这些分支展开,带来了欠拟合风险。

后剪枝的优缺点:
§ 优点
• 后剪枝比预剪枝保留了更多的分支, 欠拟合风险小,泛化性能往往优于预剪枝决策树
§ 缺点
• 训练时间开销大:后剪枝过程是在生成完全决策树之后进行的,需要自底向上对所有非叶结点逐一考察

3、随机森林

随机森林的实质是分类决策树的组合,即在数据(行)的使用和变量(列)的使用上进行随机化,生成很多分类树,再汇总分类树的结果
• 随机森林在运算量没有显著提高的前提下提高了预测精度
• 对多重共线性不敏感
• 可以在多达几千个解释变量的作用下进行很好的预测

相关文章

网友评论

    本文标题:107-商业数据分析之支持向量机和树模型

    本文链接:https://www.haomeiwen.com/subject/kshxpltx.html