从更高的格局理解决策树、随机森林、SVM 这些东西

作者: 陈半仙儿 | 来源:发表于2019-05-06 11:24 被阅读0次

引例

用决策树把一个平面上的众多点分为两类，每一个点都有（x1，x2）两个特征，下面展示分类的过程，

图片.png

最后生成的决策树，取了四个分割点，在图上的显示如下，只要是落在中央矩形区域内默认是绿色，否则为红色，

图片.png

不过这种情况是分类参数选择比较合理的情况（它不介意某些绿色的点落在外围），但是当在训练的时候需要将所有的绿点无差错的分出来（即参数选择不是很合理的情况），决策树会产生过拟合的现象，导致泛化能力变弱。

升华

单纯的决策树是一种非黑即白的分类，这种方式从数学上或者哲学上去理解，相当于工作在低维，缺乏高维抽象能力。用生活中的话说，就是”不够圆滑“。因此引入随机森林这些，相当于提升到了高维一样。

参考上面两幅图的对比。综合准确率和泛化性能来说，第一个图的圆圈分类比较好；但是决策树”直来直去“。当然极限情况下，足够多足够短的直线确实可以拟合圆，但是想想这复杂度。。。

再结合 SVM，核函数可以升维。所以随机森林之于决策树，可以理解为核函数之于 SVM。他们都有升高维度的作用。

有句名言叫做：软件里面的所有问题都可以通过加一个中间层来解决。
换到数学中来类比：数学里面的某些问题（学识有限，不敢太绝对地说所有问题）都可以通过升高维度来解决。

升维度其实在生活中很常见。只说美女，大家脑海里浮现的面孔实在是太多了。如果加一个条件（数学上可以叫做升高一个维度），比如：大眼睛、身高 170+、体重 100 斤以下、已婚、等等。这样范围就变小了，相当于提高了精度一样。

例子不太恰当，能意会意思就好。

本文标题：从更高的格局理解决策树、随机森林、SVM 这些东西

本文链接：https://www.haomeiwen.com/subject/wuhroqtx.html