美文网首页
选择合适的回归模型

选择合适的回归模型

作者: 曲凉不见 | 来源:发表于2021-06-21 13:13 被阅读0次

Choosing the Correct Type of Regression Analysis - Statistics By Jim

针对不同的变量类型选择

一、连续因变量

1)线性回归(也叫ordinary least squares,OLS)

最常用的回归模型,趋势表示mean值变化。虽然叫线性回归,但不仅是直线,也可以用多项式模拟曲率。

通过最小化SSE(sum of squared errors)来估计参数。SSE=(c1-mi)^2 + (c2-mi)^2 + ... + (ci-mi)^2 各个值与总体均值的差的平方和

自动评估备选变量的方法:stepwise regression和best subsets regression(Guide to Stepwise Regression and Best Subsets Regression - Statistics By Jim

由于线性回归对离群值和多重共线性(解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确)的敏感性,易过度拟合,因此有几个改进的线性回归:

(1)Ridge regression:存在严重多重共线性时,也能分析数据,防止过拟合。模型思想是在估计中引入轻微偏差,减少了多重共线性引起的大的偏差。

(2)Lasso regression:选择变量。识别更简单的模型,达到更准确的模型。思想类似Ridge但有变量选择。

(3)Partial least squares:当样本数较少(与自变量数量相比,例如样本数为3,时间点有5个)或自变量高度相关时,PLS减少自变量到互不相关。使用范围很广,效果很好,思想尚未了解。

2)非线性回归模型

比线性回归灵活性高

也是最小化SSE,但非线性模型使用迭代算法,而不是直接矩阵方程求解。因此需要考虑使用哪种方法、指定起始值、以及不收敛于解或收敛于局部最小值而不是全局最小值的可能性。

一般建议是先试试线性拟合,检查residue plot,是否拟合的好,结果不好再试非线性回归。

几个比较线性、非线性的帖子

二、分类因变量回归分析

因变量是类别,而不是连续值。

逻辑回归对因变量进行变换处理,然后用最大似然估计。

逻辑回归

逻辑回归描述一组连续的自变量和对应的分类因变量之间的关系,根据因变量的分类类别选择适合的逻辑模型。

(1)Binary logistic regression(二元逻辑回归):自变量变换与事件发生概率的变化的关系。因变量是二进制的值,0和1。

例如政治学家根据股市表现评估现任美国总统赢得连任的几率。

(2)Ordinal logistic regression(顺序逻辑回归):一组预测因子和一组有序反应变量的关系。顺序反应变量至少有三组具有自然顺序的,例如热、中、冷。

例如市场分析师想确定哪些变量会影响在电影院购买大、中、小爆米花的决定。

(3)Nominal logistic regression(多项式逻辑回归):norminal变量至少有三组,且没有自然顺序,例如划痕、凹痕、撕裂。

例如一位质量分析师研究影响产品缺陷类型几率的变量:划痕、凹痕和撕裂。

三、计数因变量回归分析

因变量是项目、时间、结果或者活动的计数,需要使用不同类型的回归模型。

计数是非负整数,具有较高均值的计数往往是正态分布的,可以使用OSL。但均值较小的计数会出现偏差,线性回归效果不好。

Poisson regression(泊松回归)

计数数据通常遵循泊松分布。泊松变量是在一个恒定的时间、面积或另一个一致的观察长度上对某事物的计数,泊松变量计算和评估发生率。

使用最大似然估计,对因变量进行自然对数处理。

常用于发生率的估计。

当计数数据不遵循泊松分布时,也有其它方法。

Negative binomial regression(NB2,负二项分布):泊松回归假设方差等于均值。当方差大于均值,模型过度分散,负二项分布适用。

Zero-inflated models(零膨胀模型):计数数据太多0时,不遵循泊松分布。零膨胀模型假设两个单独的过程一起工作以产生过多的零。一个过程是判断有零个事件还是多个事件,另一个过程是泊松过程。例如公园管理员统计每个游客离开公园时捕获鱼的数量。有可能是游客压根没有钓鱼,也有可能是去钓鱼但是没有钓到鱼。

相关文章

  • 选择合适的回归模型

    Choosing the Correct Type of Regression Analysis - Statis...

  • Chapter 5: Binary Discrete Choic

    1、二元离散选择模型 2、二元logit回归模型 3、二元probit回归模型 4、多元logit回归模型 5、选...

  • Python大规模建模的特征值选择和性能评估方法详解 !

    大量的特征变量,很多的模型,模型也有很多参数,如何选择合适的特征、合适的模型和合适的模型参数,这对建模是很重要的,...

  • Python大规模建模的特征值选择和性能评估方法详解

    大量的特征变量,很多的模型,模型也有很多参数,如何选择合适的特征、合适的模型和合适的模型参数,这对建模是很重要的,...

  • sklearn学习笔记——LAR 最小角回归

    Lasso回归模型,是常用线性回归的模型,当模型维度较高时,Lasso算法通过求解稀疏解对模型进行变量选择。Lar...

  • 逻辑回归

    逻辑回归模型简介 --美团 机器学习——从编程角度理解逻辑回归 七种常用回归技术,如何正确选择回归模型? 数据科学...

  • R语言学习-选择最佳的回归模型

    尝试获取一个回归方程时,实际上你就要面对着从众多可能的模型中做出选择,包括对回归模型的比较以及变量的选择。 模型比...

  • R语言实战__第8章 回归

    [toc] 第8章 回归 拟合并解释线形模型 检验模型假设 模型选择 回归分析是统计学的核心,通指那些用预测变量(...

  • 各类统计方法R语言实现(八)

    今天是各类统计方法R语言实现的第八期,我们主要介绍选择“最佳”回归模型与深层次分析。 选择“最佳”回归模型 当我们...

  • 2018-12-19

    以模型为驱动,了解“机器学习”的本质 我选择了几种经典模型 (例如:线性回归、逻辑回归、 决策树、支持向量机、条件...

网友评论

      本文标题:选择合适的回归模型

      本文链接:https://www.haomeiwen.com/subject/iddyyltx.html