美文网首页数据分析玩转大数据机器学习与数据挖掘
概率分布细谈:厚尾、长尾、幂律、指数

概率分布细谈:厚尾、长尾、幂律、指数

作者: 四碗饭儿 | 来源:发表于2017-10-10 17:28 被阅读858次

在人类行为、社交网络等社会学数据分析中,厚尾分布频繁出现。在这篇文章中,我将梳理这些常见概念的关系。

厚尾分布是什么?

厚尾分布指“尾部”比指数分布“厚重“的分布

尾部厚重

Example

帕雷托Pareto分布,也称为幂率power-law分布, 具有渐近尺度不变性,对于性质分析很有帮助
对数正态 LogNormal
Weibull
Zipf
Cauchy
Student’s t
Frechet


power-low distribution

厚尾分布的子类目

Regularly varying
次指数分布Subexponential,服从浩劫原则,对于随机游走等问题的研究很有帮助


Subexponential Distributions

长尾分布Long-tailed,服从等待时间爆炸原则,对于极端情形研究很有帮助


Long-tailed Distributions

Fat-tailed

下面这张图说明厚尾分布的各种类型

Types of heavy-tailed

厚尾分布的性质

厚尾分布具有许多有趣的特性

  • 帕雷托准则Pareto principle : 20%的人拥有社会上80%的财富
  • 方差无限, 甚至均值无限
  • 重大事件相对发生频繁

它们的3个基本性质

  • 尺度不变性Scale Invariance


    尺度不变性

    定理可证明,一个分布具有尺度不变性当且仅当这个分布是帕累托分布


    渐近尺度不变性
    定理可证明,一个分布具有渐近尺度不变性当且仅当这个分布是Regular varying分布
    regularly varying
  • 浩劫原则Catastrophe principle
    通俗意义上来说,浩劫原则指的是仅需要极少甚至一个意外就可以带来巨大的灾难。浩劫原则是厚尾分布的特性之一。相对而言,轻尾分布则服从阴谋原则,可理解为需要多数样本聚合才能产生一定的效果。


    浩劫原则和阴谋原则

    一个分布服从浩劫原则当且仅当这个分布是一个次指数分布

  • 等待时间爆炸residual life blows up
    通俗理解,如果你没有很快收到邮件答复,那么你可能永远收不到了~假定你已经等待了x时间,那么剩余等待时间的分布是


    residual life distribution

    如果是一个指数分布


    residual life distribution of exponential 它仍然是指数分布,也就是说白等了x时间。如果是一个帕雷托分布,那就很可怕了,等待时间会随着已等时间x上升!
    residual life distribution of pareto
mean residual life & hazard rate DHR IMRL

什么时候会出现厚尾分布?

考虑独立同分布的随机变量Xi,它们的和如何变化?

方差有限时,随机变量的和服从0均值的正态分布 CLT 方差无限时,随机变量的和服从厚尾分布 GCLT

在人类生活中,厚尾分布比正态分布更经常出现

  • 累加性过程 Additive Processes,如上述方差无限时
  • 乘积性过程 Multiplicative Proces example of multiplicative process 在乘积性中心极限法则的作用下,对数正态分布出现 log normal
    MCLT 如果在乘积性过程中加入噪声或者是较低的屏障,幂律分布出现~ power law
  • 极值过程 Extremal Process
    极值过程也会导致厚尾分布的出现,l


    extremal process

厚尾分布的识别

方案1在双对数坐标系下,幂律分布呈线性

识别不同分布
注意使用rank plot(ccdf)而不是简单的frequency plot(pdf)
ccdf VS pdf 指数分布还是幂律分布?

通过双对数坐标系下的线性判断幂律分布也有一定风险,因为对数正态、Weibull分布也可能是线性的,而且尾部通常含有更多噪声,不符合linear regression全局噪声恒定的假设

方案2使用MLE估计alpha

MLE &WLS

如果仅有尾部符合幂律分布,如何识别?Hill Estimator ! 这里就不多做介绍啦

Reference

http://users.cms.caltech.edu/~adamw/papers/2013-SIGMETRICS-heavytails.pdf

相关文章

  • 概率分布细谈:厚尾、长尾、幂律、指数

    在人类行为、社交网络等社会学数据分析中,厚尾分布频繁出现。在这篇文章中,我将梳理这些常见概念的关系。 厚尾分布是什...

  • 日更-《模型思维》08

    第6章 幂律分布 幂律分布也叫长尾分布。在把这种分布绘制在图上时,会产生对应大事件的沿水平轴运行的长尾。例如城市人...

  • 内容平台的“幂律分布”

    一、幂律分布与正态分布 相信不少朋友应该知道“幂律分布”与“正态分布”的概念。首先,幂律分布与“二八法则”的概率类...

  • 幂律分布:二八法则能用于预测未来吗?

    第4章 概率分布 4.4幂律分布:二八法则能用于预测未来吗? ➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖ ️4.4幂律分布:二...

  • 占领头部

    幂律分布(长尾分布)就是我们熟悉的二八原则,即不公平是大自然的的常态。 泊松分布即正态分布,展现出来的是和幂律完全...

  • 幂律分布与指数分布

    幂律分布和指数分布从图像上看貌似很像,但其实从公式出发就很容易发现其中的差异; 指数分布 ;两边取对数 幂律分布...

  • 指数分布与幂律分布的图像对比

    指数分布(exponential distribution)和幂律分布(power-law distributio...

  • 【原创】概率论7

    概率主题写作,第七天。 前一天, 大概写了写正态分布。 今天, 换一个也很重要的分布, 幂律分布。 幂律分布唯一的...

  • 幂律分布的“长尾”

    是随着坐标轴延伸,分布曲线趋近于零的速度比一般正态 分布要慢

  • 刘嘉《概率论》15

    4.4幂律分布 幂律分布的数学特征是:无标度——在任何观测尺度下,幂律分布都呈现同样的分布特征。 幂律分布的含义—...

网友评论

    本文标题:概率分布细谈:厚尾、长尾、幂律、指数

    本文链接:https://www.haomeiwen.com/subject/aicmyxtx.html