美文网首页
树回归(三)

树回归(三)

作者: RossH | 来源:发表于2019-11-08 17:22 被阅读0次

模型树

观察下图的数据分布,很容易发现可以用两条直线来拟合数据,0.0 ~ 0.3是一条直线,0.3 ~ 1.0是一条直线,可以得到两个线性模型,这就是所谓的分段线性模型

可以用树生成算法对数据进行切分,然后将线性模型保存在叶节点。

回顾树回归(一)createTree()函数,里面有两个参数leafTypeerrType还没有改变过。这里略作修改,就可以实现模型树

def linearSolve(dataSet):
    m,n = dataSet.shape
    X = np.mat(np.ones((m,n)))
    Y = np.mat(np.ones((m,1)))
    X[:, 1:n] = dataSet[:, 0:n-1]
    Y = dataSet[:, -1]
    xTx = X.T * X
    if np.linalg.det(xTx) == 0:
        raise NameError('This matrix is singular, cannot do inverse,\n\
        try increasing the second value of ops')
    ws = xTx.I * (X.T * Y)
    return ws, X, Y

def modelLeaf(dataSet):
    ws, X, Y = linearSolve(dataSet)
    return ws

def modelErr(dataSet):
    ws, X, Y = linearSolve(dataSet)
    yHat = X * ws
    return sum(np.power(Y - yHat, 2))

linearSolve()函数主要功能是将数据集格式化成目标变量Y和自变量X,并计算系数。
modelLeaf()regLeaf()类似,这里是负责生成叶节点的模型。
modelErr()regErr()类似,用于计算误差。
到这里,模型树的构建代码就完成了。只需要将参数换成modelLeafmodelErr就可以了。

myMat = np.mat(loadDataSet('exp2.txt'))
createTree(myMat, modelLeaf, modelErr, (1, 10))

运行结果如下:

{'spInd': 0, 'spVal': 0.285477, 'left': matrix([[1.69855694e-03],
         [1.19647739e+01]]), 'right': matrix([[3.46877936],
         [1.18521743]])}

下面看一下拟合效果。

import matplotlib.pyplot as plt
import numpy as np

# 构建模型树
myMat = np.mat(loadDataSet('exp2.txt'))
modelTree = createTree(myMat, modelLeaf, modelErr, (1, 10))

X = np.linspace(0, 1, num=100)
# 直线1
ws1 = modelTree['left']
Y1 = X * float(ws1[1]) + float(ws1[0])
# 直线2
ws2 = modelTree['right']
Y2 = X * float(ws2[1]) + float(ws2[0])

plt.scatter(myMat[:,0].T.tolist()[0], myMat[:,1].T.tolist()[0])
plt.plot(X, Y1, color = 'red')
plt.plot(X, Y2, color = 'yellow')
plt.show()

结果如下


可以看到两条直线都很好的拟合数据,并且模型树的切分点0.285477也很符合数据的实际情况。

树回归与标准回归的比较

接下来将用一份非线性的数据测试模型树、回归树和一般的回归方法,比较哪个最好。

# 回归树预测方法
def regTreeEval(model, inDat):
    return float(model)

# 模型树预测方法
def modelTreeEval(model, inDat):
    n = inDat.shape[1]
    X = np.mat(np.ones((1, n+1)))
    X[:, 1:n+1] = inDat
    return float(X*model)

def treeForeCast(tree, inData, modelEval = regTreeEval):
    if not isTree(tree):
        return modelEval(tree, inData)
    if inData[tree['spInd']] > tree['spVal']:
        if isTree(tree['left']):
            return treeForeCast(tree['left'], inData, modelEval)
        else:
            return modelEval(tree['left'], inData)
    else:
        if isTree(tree['right']):
            return treeForeCast(tree['right'], inData, modelEval)
        else:
            return modelEval(tree['right'], inData)

def createForeCast(tree, testData, modelEval=regTreeEval):
    m = len(testData)
    yHat = np.mat(np.zeros((m,1)))
    for i in range(m):
        yHat[i, 0] = treeForeCast(tree, np.mat(testData[i]), modelEval)
    return yHat

用到的数据集的数据分布如下。


# 加载数据集
trainMat = np.mat(loadDataSet('bikeSpeedVsIq_train.txt'))
testMat = np.mat(loadDataSet('bikeSpeedVsIq_test.txt'))
# 构建回归树
regTree = createTree(trainMat, ops=(1,20))
# 预测
regHat = createForeCast(regTree, testMat[:,0])
# 计算相关系数
np.corrcoef(regHat, testMat[:,1], rowvar=0)[0,1]

结果为0.964

# 构建模型树
modelTree = createTree(trainMat, modelLeaf, modelErr, ops=(1,20))
# 预测
modelHat = createForeCast(modelTree, testMat[:,0], modelTreeEval)
# 计算相关系数
np.corrcoef(modelHat, testMat[:,1], rowvar=0)[0,1]

结果为0.976
从上面的结果来看,模型树的效果要比回归树好。接下来看看一般的线性回归效果如何。

simpleRegHat = np.mat(np.zeros((testMat.shape[0],1)))
ws, X, Y = linearSolve(trainMat)
for i in range(testMat.shape[0]):
    simpleRegHat[i] = testMat[i,0]*ws[1,0] + ws[0,0]
np.corrcoef(simpleRegHat, testMat[:,1], rowvar=0)[0,1]

这里用前面已经实现的linearSolve()函数来求解线性方程。然后循环计算预测值,最后计算得到的相关系数为0.943
可以看到,该方法不如前面两种树回归方法。所以,树回归方法在预测复杂数据时会比简单的线性模型要更有效。

相关文章

  • 树回归(三)

    模型树 观察下图的数据分布,很容易发现可以用两条直线来拟合数据,0.0 ~ 0.3是一条直线,0.3 ~ 1.0是...

  • 机器学习系列(三十六)——回归决策树与决策树总结

    本篇主要内容:回归决策树原理、回归树学习曲线、决策树总结 回归决策树原理 回归决策树树是用于回归的决策树模型,回归...

  • xgboost slide(二)

    这部分主要是介绍回归树和组合: 回归树(cart)1、回归树(也可以叫做分类回归树),加入gbdt是回归树,但是根...

  • 机器学习实战之树回归

    “回归”与“树” 在讲解树回归之前,我们看看回归和树巧妙结合的原因。 线性回归的弊端 线性回归需要拟合所有样本点,...

  • 树回归

    CART算法(分类回归树) 可以用来分类,也可以用来回归 回归树 回归树与分类树的思路类似,但叶节点的数据类型不是...

  • 决策树

    决策树既可以用来做分类【分类树】,又可以做回归【回归树】。决策树由三个部分构成:根节点:第一个选择点非叶子节点和分...

  • 对于树模型的一些见解

    首先树模型根据根据基于决策树和回归树可分为分类模型和回归模型。 对于分类和回归问题来说,不同的地方在于,对回归...

  • 【机器学习实战】第9章 树回归

    第9章 树回归 树回归 概述 我们本章介绍 CART(Classification And Regression ...

  • 回归树

    今天

  • 回归树

    传送门:分类树 1、原理 分类与回归树(classification and regression tree,CA...

网友评论

      本文标题:树回归(三)

      本文链接:https://www.haomeiwen.com/subject/rmjwbctx.html