R方和线性回归拟合优度

作者: 拓端tecdat | 来源:发表于2020-04-10 19:27 被阅读0次

我最近一直在教授建模课程,并一直在阅读和思考适合度的概念。 R方由协变量X解释的结果Y的变化比例通常被描述为拟合优度的度量。这当然看起来非常合理,因为R平方测量观察到的Y值与模型的预测(拟合)值的接近程度。

然而,要记住的重要一点是,R平方不会向我们提供有关我们的模型是否正确指定的信息。也就是说,它没有告诉我们我们是否正确地指定了结果Y的期望如何取决于协变量。特别是,R平方的高值并不一定意味着我们的模型被正确指定。用一个简单的例子说明这是最简单的。

首先,我们将使用R模拟一些数据。为此,我们从标准正态分布(均值为零,方差一)中随机生成X值。然后,我们生成结果Y等于X加上随机误差,再次使用标准正态分布:

< - 1000\nset.seed(512312)\nx < - rnorm(n)\ny < - x + rnorm(n)","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet">n < - 1000 set.seed(512312) x < - rnorm(n) y < - x + rnorm(n)

need-to-insert-img

然后我们可以拟合Y的(正确的)线性回归模型,其中X作为协变量:

|t|) \n(Intercept) 0.02193 0.03099 0.708 0.479 \nx 0.93946 0.03127 30.040 <2e-16 ***\n---\nSignif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1\n\nResidual standard error: 0.98 on 998 degrees of freedom\nMultiple R-squared: 0.4748, Adjusted R-squared: 0.4743 \nF-statistic: 902.4 on 1 and 998 DF, p-value: < 2.2e-16","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet">summary(mod1) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -2.8571 -0.6387 -0.0022 0.6050 3.0716 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.02193 0.03099 0.708 0.479 x 0.93946 0.03127 30.040 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.98 on 998 degrees of freedom Multiple R-squared: 0.4748, Adjusted R-squared: 0.4743 F-statistic: 902.4 on 1 and 998 DF, p-value: < 2.2e-16

need-to-insert-img

我们还可以绘制数据,用模型中的拟合线覆盖:

need-to-insert-img

观察到(Y,X)数据并重叠拟合线。

现在让我们重新生成数据,但是生成Y使得它的期望值是X的指数函数:

x < - rnorm(n)

y < - exp(x)+ rnorm(n)

当然,在实践中,我们不模拟我们的数据 - 我们观察或收集数据,然后尝试将合理的模型拟合到它。因此,和以前一样,我们可以从拟合简单的线性回归模型开始,该模型假设Y的期望是X的线性函数:

|t|) \n(Intercept) 1.65123 0.05220 31.63 <2e-16 ***\nx 1.53517 0.05267 29.15 <2e-16 ***\n---\nSignif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1\n\nResidual standard error: 1.651 on 998 degrees of freedom\nMultiple R-squared: 0.4598, Adjusted R-squared: 0.4593 \nF-statistic: 849.5 on 1 and 998 DF, p-value: < 2.2e-16","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet">Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -3.5022 -0.9963 -0.1706 0.6980 21.7411 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.65123 0.05220 31.63 <2e-16 *** x 1.53517 0.05267 29.15 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.651 on 998 degrees of freedom Multiple R-squared: 0.4598, Adjusted R-squared: 0.4593 F-statistic: 849.5 on 1 and 998 DF, p-value: < 2.2e-16

need-to-insert-img

与第一种情况不同,我们获得的参数估计(1.65,1.54)不是“真实”数据生成机制中参数的无偏估计,其中Y的期望是exp(X)的线性函数。此外,我们看到我们得到的R平方值为0.46,再次表明X(包括线性)解释了Y中相当大的变化。我们可能认为这意味着我们使用的模型,即期望Y在X中是线性的,是合理的。但是,如果我们再次绘制观察到的数据,并用拟合线覆盖它:

need-to-insert-img

将拟合线叠加到观察到的数据上清楚地表明我们使用的模型未正确指定,尽管R平方值非常大。特别地,我们看到对于X的低值和高值,拟合值太小。这显然是Y的期望取决于exp(X)这一事实的结果,而我们使用的模型假设它是X的线性函数。

这个简单的例子说明,尽管R平方是一个重要的度量,但高值并不意味着我们的模型被正确指定。可以说,描述R平方的更好方法是“解释变异”的度量。为了评估我们的模型是否正确指定,我们应该使用模型诊断技术,例如针对协变量的残差图或线性预测器。

相关文章

  • R方和线性回归拟合优度

    我最近一直在教授建模课程,并一直在阅读和思考适合度的概念。 R方由协变量X解释的结果Y的变化比例通常被描述为拟合优...

  • R语言OLS回归

    简单线性回归 > fit<-lm(weight ~ height, data=women) #在R中,拟合线性模型...

  • Python 线性回归计算r-squared方法

    背景 计算线性回归a、b值后,希望计算r-squared,对比是否为最佳拟合 Excel拟合 Python拟合 相...

  • 机器学习系列(二十三)——过拟合overfitting和欠拟合u

    过拟合和欠拟合 有了多项式回归的方式,我们就可以对非线性的数据做拟合了,不过,复杂度不够的多项式回归会导致欠拟合问...

  • 线性回归与分类

    回顾线性回归,logistic回归和softmax。 LMS 先构造线性函数进行拟合: 定义cost functi...

  • 数值计算day7-数值微分

    上一节课主要介绍了曲线拟合与插值,曲线拟合主要包括线性拟合(单特征线性回归和非线性拟合(非线性方程特征变换、高阶多...

  • 【R,Python,MATLAB】曲线拟合(非线性回归)

    分享一下如何使用R语言/Python/MATLAB做曲线拟合(也就是非线性回归)。只介绍操作方法,非线性回归的原理...

  • 回归与内差

    多项式曲线拟合(线性回归拟合) polyfit函数拟合一次函数 实例代码: 散点图和线性相关系数 scatter(...

  • 从线性回归到逻辑回归

    线性回归 线性回归之所以称为线性回归,是由于其目标是拟合一条直线来对样例进行分类。线性回归试图学到和,预测值为:线...

  • 机器学习实战之树回归

    “回归”与“树” 在讲解树回归之前,我们看看回归和树巧妙结合的原因。 线性回归的弊端 线性回归需要拟合所有样本点,...

网友评论

    本文标题:R方和线性回归拟合优度

    本文链接:https://www.haomeiwen.com/subject/iledmhtx.html