学习了商务统计概率的几章,自认为已经理解了概率这块的知识,到最后发现自己能做的仅仅是罗列书上的概念和证明前人已经证明过的公式,这点让人十分沮丧。原来看懂了学会了是一回事,能够给别人讲明白又是另一回事。
本文是对概率学习的总结,涵盖了概率论中主要的基础知识:具有代表性的离散型随机变量——伯努利实验和二项分布及泊松分布的相关知识,连续型随机变量包含了正态分布和指数分布这些在现实生活中常见到的概率分布类型。
概率:用数值来描述事件发生的可能性,等于要测定的事件数目与全部可能发生的偶然事件总数之间的比率。
概率分布用来描述这一系列数值的规律。
概率论中对实验的定义是:能够产生明确结果的过程,投硬币、抛骰子、明天下不下雨、公交车上有几个人,这些都是实验。而所谓随机变量,是对实验结果的数值性描述。例:
- 定义实验(X)为投硬币,正面记为1,反面记为0,则X=0 或X=1
- 定义实验(X)为明天的降雨量,则X大于等于0,小于250毫米(一般来说)
通常用大写英文字母表示随机变量,这是约定。
随机变量根据其取值特征,分为离散型和连续型。
离散型随机变量
实验结果是由可逐一列举的结果组成的,那这个结果就是离散型随机变量。满足
- 每一种结果的可能性都是小于等于1的
- 所有结果的概率之和为1
比如上面列举的投骰子事件,一个均匀的骰子,结果必然是在1,2,3,4,5,6之中的一个,而且每个的概率相等,投一次骰子必然出现上述结果中的一个。那么每个结果的概率就是1/6。
离散型随机变量的方差:
![](https://img.haomeiwen.com/i6529705/bee5aabca4ff8d7a.png)
最左侧为零概率很小,最大可能100人在峰顶,随着人数增多,概率降低。其概率分布服从:
![](https://img.haomeiwen.com/i6529705/3838d86039f83dfb.png)
![](https://img.haomeiwen.com/i6529705/2f812a9841244c15.png)
用公式表示:
![](https://img.haomeiwen.com/i6529705/959d4eaf5f6f507d.png)
计算相当繁琐,在R中不必这么大费周章,因为R中有choose函数,用来计算从N中取n个的结果。
choose(10,5)
就表示从10个中取5个共有多少总可能。以投硬币为例,设共计投10次,每次正面概率1/2,每种结果的概率为choose(10,x)*(1/2)^10,且所以结果概率和为1。
(1/2)^10
x <- 0
for(i in 0:10){
x <- x + choose(10,i)*(1/2)^10
}
x=1
binom是R中的二项分布函数族,包含密度函数(dbinom),累积分布函数(pbinom),分为函数(qbinom),以及随机数函数(rbinom)
投10次硬币,结果为5次正面的概率
dbinom(5, 10, .5)
[1] 0.2460938
这跟手动计算的结果是一样的,可互相验证。
choose(10,5)*(1/2)^10
[1] 0.2460938
累计分布函数,正面大于5(包含6,7,8,9,10)的概率
pbinom(5,10,.5)
[1] 0.6230469
这是正面数0~5的累计概率,大于5的概率为
1-pbinom(5,10,.5)
[1] 0.3769531
手动验证:
l<- c(6,7,8,9,10)
p <- 0
for(i in l){
p <- p + choose(10,i)*(1/2)^10
}
p
[1] 0.3769531
正确!
rbinom可生成二项实验结果集
rbinom(100,10,.5)表示每轮进行10次实验,共进行100轮,每次实验的概率是1/2 ,返回结果成功次数的结果集。
[1] 6 5 6 7 6 6 5 4 8 6 7 6 3 4 5 5 6 4 4 8 6 3 3 3 3 5 3 7 3 6 4 6 6 5 3 3
[37] 4 6 6 3 5 6 2 5 4 6 5 3 6 6 5 3 5 8 6 3 6 4 5 4 2 3 5 3 6 5 6 5 8 5 6 6
[73] 2 4 4 5 8 5 3 6 4 7 8 4 6 7 5 5 2 6 7 3 2 3 8 5 2 5 3 5
plot(table(res))
![](https://img.haomeiwen.com/i6529705/87f8018207203827.png)
这是进行100次每次10个实验的结果,如果数值设置大一点,结果就很接近正态分布了。
![](https://img.haomeiwen.com/i6529705/776b18f1ebfc7056.png)
网友评论