美文网首页SPSSAU数据分析入门教学statistical
什么泊松分布?泊松回归又是做什么的?

什么泊松分布?泊松回归又是做什么的?

作者: spssau | 来源:发表于2019-08-05 10:16 被阅读35次

之前的文章中我们介绍过最常用的——线性回归;据不满足线性关系时可以通过函数转化为线性关系的——曲线回归;当Y为定类数据时使用的——Logistic回归等。还有一些专门用来解决回归分析中出现的种种问题的回归方法,如解决多重共线性问题的岭回归、自动筛选变量的逐步回归、中介调节效应中用于对模型比较的分层回归等。

除了上述提及的,事实上还有很多回归分析方法,它们适用于不同类型的数据以及不同应用场景,正是这些分析方法组成了我们熟知的回归分析大军。

接下来,本文将要介绍的这个回归模型是专门针对计数数据的泊松回归模型


说到泊松回归,首先要了解,什么是泊松分布?

试想一下,你现在就站在一个人流密集的马路旁,打算收集闯红灯的人群情况(?)。首先,利用秒表和计数器,一分钟过去了,有5个人闯红灯;第二分钟有4个人;而下一分钟有4个人。持续记录下去,你就可以得到一个模型,这便是“泊松分布”的原型。

除此以外,现实生活中还有很多情况是服从泊松分布的:

10分钟内从ATM中取钱的人数

一天中发生车祸的次数

每100万人中患癌症的人数

每天1万人中丢手机的人数

......

泊松回归模型

Poisson模型用于描述单位时间、单位面积或者单位容积内某事件发现的频数分布情况,通常用于描述稀有事件(即小概率)事件发生数的分布。

在上述例子的中都有一个明显的特点:低概率性,以及描述的都是单位时间(或面积、体积)内的数量。

因此在通常情况下,满足以下三个条件时,就认为数据满足Poisson分布:

(1) 平稳性:发生频数的大小,只与单位大小有关系(比如1万为单位,或者100万为单位时患癌症人数不同)。

(2) 独立性:发生频数的大小,各个数之间没有影响关系,即频数数值彼此独立没有关联关系;比如前1小时闯红灯的人多了,第2小时闯红灯人数并不会受影响。

(3) 普通性:发生频数足够小,即低概率性。

如果数据符合这类特征时,而又想研究X对于Y的影响(Y呈现出Poisson分布);此时则需要使用Poisson回归,而不是使用常规的线性回归等。

判断是否服从Poisson分布的方法

检验数据是否符合Poisson分布,共有两种方法:一种是通过特征判断;另外一种是通过Poisson检验

特征判断即是要数据符合上面提到的三个条件;而如果用Poisson检验可在【医学研究→Poisson检验】里进行检验。

在现实研究中,可能更多会通过特征进行判断是否基本符合Poisson分布。

案例应用

(1)背景

当前有一份数据是从10个城市进行抽样获取的,用于研究影响患皮肤癌的影响因素,共有两个研究因素,分别是性别和年龄;被影响项为‘是否皮肤肺癌’。由于Y为‘是否皮肤肺癌’,且明显,‘是否皮肤肺癌’这个数据满足平稳性、独立性和普通性这三个特征;因而使用Poisson回归进行研究。

(2)操作步骤

性别为定类数据,分析前需要先进行哑变量处理再纳入模型,本例以“男性”为参照项,因此放入“性别_女”。

SPSSAU-哑变量设置操作 

并且由于每个城市的人口基数不一样,分析时还有考虑人口基数这一数据,最终放置如下:

SPSSAU-Poisson回归分析界面

(3)结果分析

针对Poisson回归分析,SPSSAU共输出2个表格,分别是:似然比检验结果表以及Poisson回归分析结果汇总表。

①Poisson回归模型似然比检验表

Poisson回归模型似然比检验表

上表用于模型检验,模型检验的原定假设为“是否放入X模型质量均一样”。根据上表可知,此处放入2个X分别是性别_女,年龄。而且P值为0.000 <0.05,意味着放入2个自变量后,模型质量有明显的提升,因而拒绝原定假设,本次模型构建有意义。卡方值和df值均为中间过程值可忽略。

AIC和BIC这两个指标值,可用于多个模型对比(AIC和BIC越小越好),当前放入2个自变量可记录下AIC和BIC值,如果多放一个自变量(即3个时),AIC和BIC值有着明显的下降,则可以选择3个自变量时的模型作为最终模型。

②Poisson回归分析结果汇总表

Poisson回归分析结果汇总表

上表用于研究X对于Y的影响关系情况,表格中有意义的指标信息包括:P值,回归系数和R Pseudo R²。其它指标包括标准误,Z值,95%CI值意义相对较小。

从上表可知,模型伪R平方值(Pseudo R平方)为0. 900,意味着性别, 性别和年龄可以解释皮肤癌患病的90.0%变化原因。

模型公式为:log(u)=log(人口基数) -9.952-0.035*性别_女 + 0.643*年龄(其中u代表期望均数)。

具体分析,年龄一项回归系数为0.643,P值(P=0.000<0.01),说明年龄对患皮肤癌有着正向的影响,随着年龄的增长,患皮肤癌的可能性也提高。而性别对皮肤癌没有产生影响。

其他说明

Poisson分布是指单位时间/面积/体积内的发生数,因而如果基数不一致时,spssau分析时,一定要放入基数这个数据。

登录SPSSAU官网体验在线数据分析​​​​

相关文章

  • 什么泊松分布?泊松回归又是做什么的?

    之前的文章中我们介绍过最常用的——线性回归;据不满足线性关系时可以通过函数转化为线性关系的——曲线回归;当Y为定类...

  • 金融业信贷风控算法6-广义线性回归

    一. 泊松分布 1.1 泊松分布回顾 泊松分布(Poisson Distribution)回顾:一个事件在一段时间...

  • loss函数之PoissonNLLLoss,GaussianNL

    PoissonNLLLoss 真实标签服从泊松分布的负对数似然损失,神经网络的输出作为泊松分布的参数。 泊松分布是...

  • 零膨胀泊松回归分析

    SPSSAU-在线SPSS分析软件 零膨胀泊松回归分析 计数研究模型中,常用泊松回归模型,但泊松回归模型理论上是要...

  • R - Poisson 泊松分布

    泊松分布:

  • 无标题

    泊松分布

  • 【原创】概率论8

    第八天,关于泊松分布。 泊松分布, 相比正态分布和幂律分布, 从图形和公式角度来说, 都要难理解一些。 啥是泊松分...

  • 泊松分布

    泊松分布条件泊松分布条件.PNG 二项分布的近似 二项分布 n 较大,p 较小的时候可以用泊松分布来近似,减小计算...

  • MACS的原理

    泊松分布 泊松分布是统计与概率中重要的离散分布之一,泊松分布表示在一定的时间或空间内出现的事件个数,比如某一服务设...

  • 2018-07-30

    告诉对方泊松分布

网友评论

    本文标题:什么泊松分布?泊松回归又是做什么的?

    本文链接:https://www.haomeiwen.com/subject/rbmtdctx.html