美文网首页
细说回归分析

细说回归分析

作者: 可乐的数据分析之路 | 来源:发表于2020-07-02 23:02 被阅读0次

什么是回归

我们先来聊聊历史,从回归这个词被发明的源头聊起。话说有一个叫高尔顿的生物学家兼统计学家在研究人类遗传问题时发现了一个现象:非常高的父亲,其儿子的身高往往要比父亲矮一点,而非常矮的父亲,儿子的身高也会比父亲高一些,也就是说,人类的身高从高矮两个极端移向所有人的平均值,他把这种现象称为“向平均回归(regression to the mean)”。


其实仔细想想这种现象应该是正常的才对,如果不发生这种向平均值回归的事情,那么高的人后代将越来越高,同样矮的人的后代会越来越矮,那么经过一系列的种族繁衍后,人类将变成特别高和特别矮的两极分化状态。

这是回归这个词的由来,所以我们再来理解一下什么是回归分析,首先我要去分析两个现象之间有什么关系,然后我要知道现象之间的具体形式,并用数学表达式来展示。比如上次的相关性分析中我们说到了城市化水平和离婚率之间存在着相关关系,那么这两个变量之间的关系到底深到什么程度,是谁在影响谁,这就需要我们用函数定量地去描述,这就是回归。

在说相关性的时候,我们会把两个变量之间的关系用散点图来展示,更进一步地,还会去找到一条最合适的平均线,也就是“向平均回归的线”,而这条线的函数表达式,就是我们说的回归方程,所以说,回归分析要寻找的就是变量之间的最佳拟合关系。

常见回归算法

有线性和非线性,这里我们就重点说下线性回归

线性回归,顾名思义,就是用一条直线去拟合样本的趋势。包括一元线性回归和多元线性回归,在实践中,多元应用的较多。什么是“元”?实际上就是自变量X,一个X就是一元线性回归,多个X就是多元线性回归。

一元线性回归是最基本的回归,对于每一个自变量X都有因变量Y,误差项是一个服从正态分布的随机变量且相互独立,上公式:



多元线性回归就是多个自变量x,X和Y之间的函数关系如下:


在线性回归里,我们只需要关注2点:一个是x和y是线性表达式,这一点很重要,如果有非线性关系的变量我们用线性来描述,这就是误区了;另一点是线性回归有一个误差项,且误差项服从正态分布,这个怎么理解呢?不是所有的关系都能百分之百用函数表达式去解释的,可能有80%的部分我们可以去解释,但是还有20%的部分我们解释不了,就把它归为误差项。

评价回归算法的指标

做出了回归分析的表达式,那么如何评价它的好坏呢?这样预测是准确还是不准确呢?就要用到几个指标来评价。

R平方

评估模型拟合度的好坏,取值范围是[0,1],R平方越大,说明模型拟合的越好。R平方的值与自变量的个数有关,自变量越多,R方越大,这样的话就削弱了R方的评价能力,因此需要剔除自变量数目影响后的R平方,也就是修正后的R平方,这是在多元线性回归中需要了解的。

在Excel中我们可以通过画趋势线来得到R平方。



F统计量

检验因变量和自变量之间的线性关系是否显著,回归方程整体的显著性检验,用到的是F检验。

P值

回归方程系数的显著性检验:P值,理论显著性水平α值,通常为0.01、0.05。如果某个系数对应的P值小于显著性水平,则认为在显著性水平下,该回归系数是显著的。

这些评价指标还可以用Excel里的【回归】功能实现。


我在之前的文章中也写过具体的做法:

致命的回归错误

  • 多元共线性:几个自变量高度相关,会导致模型预测能力降低,所以在前期输入变量的时候就要注意避免共线性的变量输入。

  • 变量过多:同样如果变量输入的太多,可能导致过拟合的问题。

其实这些错误都是对业务不理解导致的,所以技术是一方面,思维层面的思考是另一方面,二者结合才能发挥更大的作用。


猜你喜欢:
什么是好的数据指标:精益数据分析

泰坦尼克号数据分析

深入浅出数据分析

数据分析都有哪些岗位?

为什么要学统计学:赤裸裸的统计学

成为数据分析师的第三年,我写了10W字

@ 作者:可乐
@ 公众号/知乎专栏/头条/简书:可乐的数据分析之路
@加个人微信:data_cola,备注:进群,拉你入 可乐的数据分析群 和各行各业的小伙伴交流探讨数据分析相关内容

微信公众号 个人微信号

相关文章

  • 细说回归分析

    什么是回归 我们先来聊聊历史,从回归这个词被发明的源头聊起。话说有一个叫高尔顿的生物学家兼统计学家在研究人类遗传问...

  • 2020-08-22阅读十分钟收获(坚持第017天)总结中级经济

    中级经济基础第26章回归分析 回归分析与相关分析的区别和联系 回归分析分类为,线性回归和非线性回归 一元回归和多元...

  • 回归测试

    中文名称:回归测试 英文名称:Regression testing 类型:测试类 详细说明:回归测试是指在发生修改...

  • Data Science with R in 4 Weeks -

    Regression Analysis 回归分析是非常有用的分析方法,而线性回归又是回归分析中常用的方法。有一个著...

  • 平色和谐

    闲逸时刻,记下悄然流逝的时光、、、 留着情感,细说往事。 一切回归起点,安于平静。

  • (16)多重线性回归分析

    一、多重线性回归分析简介 简单线性回归分析:自变量X =1 个 多重线性回归分析:自变量X >=2 个 多元线性回...

  • 线性回归分析

    线性回归分析应该是我们最常用的分析模型了,根据身高和体重预测年龄 1.回归分析的基本概念 §回归分析假定自变量对因...

  • Python3入门机器学习 - 逻辑回归与决策边界

    logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,以胃癌病情分析为例,选择两组人群,...

  • Python算法的起点:线性回归 ,一文掌握!

    在这篇文章中,我将会介绍Python线性回归、多项式回归的基本概念,然后详细说明关于样条回归的更多细节以及它的Py...

  • 前言

    梳理统计学习相关的体系 进入统计机器学习模型部分,首先从最基础的从回归分析说起。 1.回归分析 回归分析大家相对来...

网友评论

      本文标题:细说回归分析

      本文链接:https://www.haomeiwen.com/subject/dglufktx.html