美文网首页
理解回归

理解回归

作者: 11的雾 | 来源:发表于2019-11-23 23:37 被阅读0次

    回归主要关注确定一个唯一的因变量(dependent variable)(需要预测的值)和一个或多个数值型的自变量(independent variables)(预测变量)之间的关系。我们首先假设因变量和自变量之间的关系遵循一条直线,即线性关系。

    用来描述数据拟合线过程的“回归”(regression)一词来源于19世纪后期Francis Galton爵士遗传学的研究中。Galton发现,尽管父亲的身高极矮或者极高,但是他们儿子的身高却有更接近于平均身高的趋势,于是,他称这种现象为“回归平均值”(regression to the mean)。

    你可能还记得代数中是以类似于y=a+bx的斜截式来定义直线的,其中,y是因变量,x是自变量。在这个公式中,斜率(slope)b表示每增加一个单位的x,直线会上升的高度;变量a表示当x=0时y的值,它称为截距,因为它指定了直线穿过垂直轴时的位置。

    回归方程使用类似于斜截式的形式对数据建立模型。该机器的工作就是确定a和b,从而使指定的直线最适合用来反映所提供的x值和y值之间关系,这可能不是完美的匹配,所以该机器也需要有一些方法来量化误差范围,我们很快就会深入讨论这个问题。

    回归分析通常用来对数据元素之间的复杂关系建立模型,用来估计一种处理方法对结果的影响和推断未来。一些具体的应用案例包括:

    ❑ 根据种群和个体测得的特征,研究他们之间如何不同(差异性),从而用于不同领域的科学研究,如经济学、社会学、心理学、物理学和生态学。

    ❑ 量化事件及其相应的因果关系,比如可应用于药物临床试验、工程安全检测、销售研究等。

    ❑ 给定已知的准则,确定可用来预测未来行为的模型,比如用来预测保险赔偿、自然灾害的损失、选举的结果和犯罪率等。

    回归方法也可用于假设检验,其中包括数据是否能够表明原假设更可能是真还是假。回归模型对关系强度和一致性的估计提供了信息用于评估结果是否是由于偶然性造成的。

    由于假设检验在技术上并不是一种学习任务,所以我们不会很深入地介绍它。如果你对这个主题感兴趣,你可以从入门的统计学教科书开始学习。

    与我们到目前为止已经介绍过的其他机器学习算法不同,回归分析并不等同于一个单一的算法。相反,它是大量方法的一个综合体,几乎可以应用于所有的机器学习任务。如果你被限制只能选择一种单一的分析方法,那么回归方法将是一个不错的选择。你可以投身整个事业生涯来来专门研究这种方法,而不去管其他方法,即使如此你还有可能学不完。

    在本章中,我们只关注最基本的回归模型,即那些使用直线回归的模型,这叫做线性回归(linear regression)。如果只有一个单一的自变量,那就是所谓的简单线性回归(simple linear regression),否则,称为多元回归(multiple regression),这两个模型都假设因变量是连续的。

    对于其他类型的因变量,即使是分类任务,使用回归方法都是可能的。例如,逻辑回归(logistic regression)可以用来对二元分类的结果建模;而泊松回归(Poisson regression),以法国数学家Siméon Poisson的名字命名,可以用来对整型的计数数据建模。相同的基本原则适用于所有的回归方法,所以一旦你理解了线性情况下的回归方法,你就可以研究其他的回归方法。

    线性回归、逻辑回归、泊松回归以及许多其他的回归都属于一类模型,称为广义线性模型(Generalized Linear Model,GLM),使得回归能适用于许多类型的数据。线性模型可以通过使用连接函数(link function)进行泛化,其中,连接函数指定x和y之间的数学关系。

    尽管简单线性回归中有“简单”两个字,但并没有简单到不能解决复杂的问题。在下一节中,我们将看到应用简单线性回归模型如何可能避免一场本来可以避免的悲剧性的工程灾难。

    相关文章

      网友评论

          本文标题:理解回归

          本文链接:https://www.haomeiwen.com/subject/sfmkwctx.html