美文网首页数据专栏
概率分布:掌握事态谋定千里外

概率分布:掌握事态谋定千里外

作者: 数据砖家 | 来源:发表于2019-05-21 21:58 被阅读61次

世界充满不确定性,每一个人都不断的在搜寻各种信息来消弱不确定性,提高自己判断选择的胜算,不确定性推衍出多种事态的发展:比如明天的天气,可能晴空万里,可能乌云密布,可能晴转多云。

1,为什么要在多种事态中做判断呢?

因为对事态的判断,是一种思想的认知选择,指导我们下一步的具体行动,最重要的是这种认知选择是有价值的,认知的选择的价值和判断的准确性和事态的重要性成正相关。比如:如果你认知上选择:明天绝对(100%)下雨,你下一步的行动就是拿一把雨伞,来应对这中下雨这种事态的出现,不会因为下雨耽误自己的大事。如果你判断错了呢?意味着超出认知判断的事态发生来,就会引发一连串的(难以预料)事态变化。正如一个有名的故事:“因为一个马蹄铁,失去一匹马,失去一个骑士,失去一场战场,毁灭了一个帝国”。所有每一个理智的人都惧怕不确定性中的不同事态。

2,怎样把握事态,消弱不确定性?

把握事态的方法只有一个就是了解事态的迹象,可以简单为数据中的信息,万事万物是紧密相连的,就拿天气的事态变化,可以提前从天气的迹象做一个简单的判断。在长期的生产实践中,总结出了许多自然现象与天气变化的规律,并编成了顺口易记的谚语。这些谚语可以帮助我们粗略预测天气的变化。

瓦块云,晒煞人。 馒头云,天气晴。 天上鲤鱼翻,晒谷不用摊。    早霞不出门,晚霞行千里。 鱼鳞天,不雨也风癫。 日晕三更雨,月晕午时风。

一句话:“掌握事态特征所牵连/包含的信息”。

3,怎么确定一个事态发生的可能性呢?

两个字:“概率”,一种取 [0, 1]的可能性程度的度量。概率只是一种事态发生的几率,不代表实际事态真正发生与否。随机变量就是表示不确定的事态。随机变量有离散型和连续型两种。问题来了,对一件事的不同事态(多个随机变量),怎么描述呢?需要记住两个概念:“期望”,“方差”,构成了概率分布的主要概念就这两个。“期望”可以理解我一件事的引力基准线,牵引着不同的事态的发展,“方差”可以理解为事态的脱准力,方差越大事态就更难把握,也更难预测。期望是统计工作者期望的,方差是统计工作者失落的。

一个事件的期望来自于事态大小乘以概率的合计:

方差多种事态于期望基准距离的平方以概率的合计:

事态出现的概率分布,就是事态点在 期望基准和方差脱准力构成的二维平面的分布图。

4,主题:事态(随机变量)主要的概率分布。

概率分布的目的:反向推演出某一个事态(随机变量)发生的概率,为决策提供依据,掌控事态变化的关键。

4.1, 二项式分布:有限确定的随机变量(彼此独立),且随机变量的发生概率已知。在n次事件实验中,某个随机变量,出现的 x 次数的概率的分布。二项式分布(二维坐标轴,粗俗的理解)的期望和方差分别为:

R模拟:(概率越大,n次实验中随机变量出现的次数多)

> k=seq(0.1,0.9,0.1)

> par(mfrow=c(3,3),mai=c(0.6,0.5,0.2,0.1))

> for(i in 1:9)

+ barplot(dbinom(0:5,5,k[i]),xlab="x",ylab="p",ylim=c(0,0.6),main=substitute(B(5,b),list(b=k[i])),col="lightblue")

4.2,正态分布很重要(因为用的地方很多)

扩展:可以了解到正态分布分布的前世今生:高斯与正态分布

不说废话,这是统计学家们,苦心推演出来的万能概率分布,是创世纪的数理统计发现。

神说,要有正态分布,就有了正态分布。神看正态分布是好的,就让随机误差就服从了正态分布。

正态分布随机变量的概率密度公式:(不明觉厉的公式,记住就会)

R模拟:

> par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)

> curve(dnorm(x,-2,1),from=-6,to=2,xlim=c(-6,6),ylab="f(x)",lty=1,lwd=1.5,col='blue')

> abline(h=0)

> segments(-2,0,-2, dnorm(-2,-2,1),lwd=1.5,col="black")

> curve(dnorm(x,2,1),from=-2,to=6,add=T,lty=2,lwd=1.5,col='green')

> segments(2,0,2, dnorm(2,2,1),lty=2,lwd=1.5,col="black")

> legend(x="topright",legend=c("N(-2,1)","N(2,1)"),lty=1:2,col=c("blue","green"),cex=0.8)

#计算正态分布的概率

> pnorm(40,mean=50,sd=10)

[1] 0.1586553

#计算正态分布的分位数

> qnorm(0.025,mean=0,sd=1)

[1] -1.959964

>

4.3, 正态分布推演的卡方分布

卡方分布:n 个标准正态分布随机变量的平方和的分布成为具有n个自由的卡方分布。分布形状取决于自由度n的大小,通常为不对称的右偏分布,自由度增大逐渐趋于对称。

R模拟:

> par(mfrow=c(2,3),mai=c(0.6,0.6,0.2,0.1))

> n=5000

> df<-c(2,5,10,15,20,30)

> for(i in 1:6){

+ x<-rchisq(n,df[i])

+ hist(x,xlim=c(0,60),prod=T,col='lightblue',xlab="x",ylab="Density",main=paste("df=",df[i]))

+ curve(dchisq(x,df[i]),lwd=1.5,col=2,add=T)

+ }

#pchisq(10,df=15)

#qchisq(0.95,df=10)

4.4,t分布正态与卡方的结合

t分布,用t表示样本均值经过标准化后的新随机变量,因此成为t分布,也成学生分布。设随机变量Z服从标准正太分布,X服从n个自由度的卡方分布,且Z与X独立,则:

服从自由度为n的t分布。t 分布类似于正态分布,比正态分布平坦而分散,随着自由度增大逐渐趋于正态分布。

R模拟:

>

> curve(dnorm(x,0,1), from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,col=1)

There were 24 warnings (use warnings() to see them)

> abline(h=0)

> segments(0,0,0,dnorm(0),col="blue", lty=2,lwd=1.5)

> curve(dt(x,5) ,from=-4,to=4, add=T,lty=2,col=2,lwd=1.5)

> curve(dt(x,2) ,from=-4,to=4, add=T,lty=3,col=4,lwd=1.5)

> legend(x="topright",legend=c("N(0,1)","t(5)","t(2)"),lty=1:3,col=c(1,2,4))

4.5,F分布是纪念著名统计学家R. A.  Fisher 以其姓氏的第一个字母而命名的,它是两个卡方分布变量的比。设U服从自由度为n1的卡方分布,V服从自由度为n2的卡方分布,且U和V独立。则:

服从自由度为n1 和n2的F分布。

R模拟:

> curve(df(x,10,20) ,from=0,to=5,xlim=c(0,5),ylab="f(x)",lty=1,col=1,lwd=1.5)

> curve(df(x,10,20) ,from=0,to=5,add=T,lty=2,col=2,lwd=1.5)

> curve(df(x,5,10) ,from=0,to=5,add=T,lty=2,col=2,lwd=1.5)

> curve(df(x,3,5) ,from=0,to=5,add=T,lty=3,col=4,lwd=1.5)

>

> legend(x="topright",legend=c("F(10,20)","F(5,10)","F(3,5)"),lty=1:3,col=c(1,2,4))

#pf(3,df1=10,df2=8)

#qf(0.95,df1=25,df2=20)

5,总结一下:卡方分布,t分布,F分布都属于正态分布的推演,当自由度增大,它们都渐进趋于正态分布。学好这几种分布,从样本分布,推演一个随机变量的概率就很简单了,祝你在滚动的潮流中,获取掌握事态变化的方法,辅助自己决胜千里之外,成就精彩人生。

扫描关注,看到不一样的视界

相关文章

  • 概率分布:掌握事态谋定千里外

    世界充满不确定性,每一个人都不断的在搜寻各种信息来消弱不确定性,提高自己判断选择的胜算,不确定性推衍出多种事态的发...

  • 6.概率分布

    概率分布函数 概率分布函数(Probability Distribution Function,PDF):概率分布...

  • 概率分布

    几个重要的概率分布 离散型概率分布:二项分布,泊松分布,超几何分布 连续型概率分布:正态分布 由正态分布导出的几个...

  • 木东居士学习计划:第三周 数据分布(详实版)

    基本概念古典概率条件概率离散分布连续变量期望值 离散变量的概率分布二项分布伯努利分布泊松分布 连续变量的概率分布均...

  • 商务与经济统计第六章笔记

    连续性概率分布 连续性概率函数主要有三: 均匀分布,正态分布和指数分布。 1、均匀概率分布 均匀概率密度函数 连续...

  • 成为数据分析师要掌握的统计学知识(基础版)

    阅读路线: 概率介绍 离散型概率分布和连续型概率分布 抽样和抽样分布 区间估计 假设检验 概率介绍 概率是指的对于...

  • 蒙特卡罗方法

    蒙特卡罗方法的关键是得到 x 的概率分布。如果求出了 x 的概率分布,我们可以基于概率分布去采样基于这个概率分布的...

  • 概率分布基础知识

    一、前言 概率分布(probabilitydistribution)或简称分布(distribution),是概率...

  • 常用统计量 的抽样分配

    样本比例 的抽样概率分布 样本方差 的抽样概率分布

  • 《商务与经济统计》第六章笔记

    连续型概率分布 连续型该路函数分三种: 均匀分布、正太分布和指数分布 1、均匀概率分布 均匀概率密度函数 连续型均...

网友评论

    本文标题:概率分布:掌握事态谋定千里外

    本文链接:https://www.haomeiwen.com/subject/fwgszqtx.html