基础统计学(5)概率

作者: Best_Scenery | 来源:发表于2020-03-15 19:37 被阅读0次

基础统计学(5)概率
# 大数据的统计学基础
数据挖掘数据分析
自然语言处理NLP(三)
F周刊：2017-02-25
《这就是心理学》品读心得(3)
R语言数学统计相关函数2021.3.7
统计学学习笔记
2020-03-13-01 统计基础教材推荐
基础统计学(6)概率分布

3.01 Randomness

理解随机性，随机性无处不在，同义的词有:

uncertainty(不确定性), chance(机会), risk(风险), likelihood(可能性)

描述可变性程度(degrees of variability)的词有:

rarely(难得), seldom(很少), sometimes(有时),common(通常),frequent(频繁),offen(经常)

总结:

随机性不是一种现象的性质
- 它依赖其他优先级知识，观察方法和一种现象的比例
人们并不擅长评估随机性，过渡解释随机性(幻想性错觉)，不擅长创建随机数据

3.02 Probability

概率

有几个术语(沙滩检贝壳的场景)

event(捡起来的贝壳的种类)
independent trial(检贝壳这个动作)
experiment(整个检贝壳，比如检了200个， trials的集合)

probalibity_1.png

总结:

几率是用来表示随机量的方式，它大于等于0，小于等于1, 所有事件的几率和=1
需要依赖大量的数据

3.03 Sample space, event, probability of event and tree diagram

Sample space(样本空间): 所有随机现象可能的结果的集合

Event(事件)是样本空间的子集

每个事件都有一个概率，然后可以使用决策树来计算最终样本空间的概率

管理Experiment(实验)和假设来算出概率的值

决策树图示如下:

probability_2.png

3.04 Quantifying probablities with tree diagram

通过决策树来量化概率

决策树使用的过程如下, 假设只有2瓶汽水了，而冰淇淋无限的前提

probability_3.png

将一条路径上每个节点的概率相乘来获取这一条路径最终的输出概率
如果某个事件是又多个输出组成，将他们的概率相加

决策树的局限性:

决策树处理规模小的问题比较容易，一旦处理规模大的问题的时候就不那么容易了
决策树需要知道每个节点的概率

3.05 Basic set theoretic concepts

基本集合概念

set_1.JPG

不相交的集合的概率和小于等于1

穷尽相交的事件概率和等于1

A和B的相交同时是两个事件的子集，P(A) * P(B)

3.06 Practice with sets

集合练习

描述下图中的各个术语

probability_5.png

Experiment(实验)：这整个拾贝壳的过程
Trial(实验)：捡贝壳这个动作
Outcome(产出): 某次捡起的贝壳是Q还是R这个结果
Event(结果): 最终所有outcome的合并的结果比如QQR,RRQ等等
Random variable(随机变量): 每次捡起来是Q还是R呢？这个类型就叫做随机变量
Sample Space(样本空间): 所有可能的Event的集合

一下是一个决策树的例子(当贝壳并不是无限的时候)

probability_4.png

上图中每个节点的概率都受上次(trial)实验的结果影响

3.07 Union

并集

看下图:

probability_6.png

当A和B不想交的时候 P(A and B)=0, 他们的并集就是 P(A) + P(B)

3.08 Joint and marginal probablility

联合概率和边际概率

以下用列联表(2.01)来描述这两个概念

probablility_7.png

对表中的每个值除以总人数(113)来算出每个值的比例

probability_8.png

联合概率和其他联合概率不相交，所有联合概率相加=1
边际概率是某一个单一的变量的概率值, 由横向、纵向的联合概率相加获得
联合概率可以推出边际概率，而边际概率不能反推出联合概率

3.09 Conditional probability

条件概率

事件A在另一个事件B已经发生的条件下的发生概率，以下为条件概率的计算方法

P(A|B) = P(A and B) / P(B)

可以推导出如下等式
P(A and B) = P(A|B) * P(B) (无论是依赖关系还是非依赖关系)

见如下图示

probability_10.png

上图表示：当某人在晒太阳的时候，他是男人的概率是多少。

事件A为是男人，事件B为晒太阳， P(A and B) 为0.301, P(B)为0.699. 最终概率= P(A and B)/P(B) = 0.301/0.699

3.10 Independence beween random events

随机事件时间是互相不依赖的

不依赖的条件:

P(A and B) = P(A) * P(B) 等价于 P(A, given that B occus) = P(A). 它并不常见,因为事件发生的因为有很多
disjoint != independent
当事件时间是不相交的，那说明他们是互相依赖的（怎么理解呢？因为当确定不相交，说明发生了事件A,肯定不会发生事件B,这就产生了依赖了）
相反，若事件之间不依赖，那他们也不会不相交（有相交）

如下图示