【机器学习实战】回归决策树

作者: 吵吵人 | 来源:发表于2019-02-21 21:21 被阅读0次

【机器学习实战】回归决策树
机器学习算法开始页
python决策树（二叉树、树）的可视化
算法工程师知识树持续更新
Python从零开始第六章机器学习②逻辑回归实战（2）
机器学习系列（三十六）——回归决策树与决策树总结
【机器学习实战】Logistic回归（一）
机器学习实战Py3.x填坑记—决策树
2018文章集合
《机器学习实战》决策树构建学习

根据处理数据类型的不同，决策树分为两类：分类决策树与回归决策树。前者可用于处理离散型数据，后者可用于处理连续型数据。以下通过例子对最小二乘回归树进行简单粗暴的讲解。

示例数据集.png
1. 选择最优切分变量j与最优切分点s
在本数据集中，只有一个变量，因此最优切分变量自然是x。
考虑9个切分点

【1.5，2.5，3.5，4.5，5.5，6.5，7.5，8.5，9.5 】

定义损失函数如下，其中y是原始数值，f(x)是切分后同一类别的平均值。

例如，取切分点s=1.5，此时，

R1={1}
R2={2,3,4,5,6,7,8,9,10}

这两个区域的输出值分别为：

c1=5.56,
c2=1/9(5.7+5.91+6.4+6.8+7.05+8.9+8.7+9+9.05)=7.50

其损失度：

     m(1.5)=(5.56-5.56)²+(5.7-7.50)²+(5.91-7.50)²+(6.4-7.50)²...(9.05-7.50)²
     =0+15.72
     =15.72

依次对每一个切分点进行上述计算，使得损失最小的切分点即为最优切分点。公式表示如下：

2. 循环计算损失度
本数据集计算的各切分点损失度结果如下：

显然取 s=6.5时，m(s)最小。因此，第一个划分变量j=x,s=6.5。此时，两个区域分别是：R1={1,2,3,4,5,6}，R2={7,8,9,10}，输出值从c1=6.24，c2=8.91。
对R1/R2重复上述过程，继续划分。
3. 生成回归树
假设在生成3个区域之后停止划分，那么最终生成的回归树形式如下：