一、概率论中概率分布函数的定义
1.随机试验
(1)可以在相同的条件下重复地进行;
(2)每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果
(3)进行一次试验之前不能确定哪一个结果会出现.
2.样本空间
对于随机试验,尽管在每次试验之前不能预知试验的结果,但试验的所有可能结果组成的集合是已知的.
(1) 样本空间:随机试验 E 的所有可能结果组成的集合称为 E 的样本空间,记为 S.
(3)样本点: 样本空间的元素.即E的每个结果,称为样本点.
3.随机事件
在实际中,当进行随机试验时,人们常常关心满足某种条件的那些样本点所组成的集合.
随机事件 : 我们称试验 E 的样本空间 S 的子集为 E 的随机事件,简称事件.
4.随机变量
5.分布函数
6.总结
我们对每一个 在相同条件下,会呈现不同结构的随机事件赋予一个数值。其后我们研究这个数值的性质。我们将这些性质扩充为一门学科——概率论。
现在我们思考一个简单的分类任务。我们看看在这个任务中,什么是随机变量,如何量化随机变量。
二、图像识别——熊猫和狗
1.图像采集之随机变量
场景一:一只小熊猫在树上玩耍。
图一:熊猫我们要采集熊猫的图片,训练出可识别熊猫的模型。在环境不变的情况下,即小熊猫玩耍的场景不变,拍摄的人不变,相机不变等等。我们拍摄出来的图片可能不一样。根据概率论的定义,拍摄熊猫图片为一随机事件。设图一为随机事件A。
现在我们要定义一个实值函数f(A),将随机事件A变成数字。图一是一个分辨率为920X517的图片。定义一个920X517的X矩阵和A对应,即
这里我们建立了一个随机事件A(熊猫图像)到矩阵X的映射。随机事件A对应920X517个随机变量,即
不能插入公式,我也很头疼是一个随机变量。
2.计算概率
随机事件A发生的概率如何计算?根据大数定律我们知道,当实验次数足够多时,随机事件A发生的概率近似等于频率。所以我们在相同的情况下,拍摄足够多的图像,统计图一出现的频率,即可得到图一的概率。即,P(图一) = 图一出现的频率。
3.概率分布函数
根据上面分布函数的定义,我们知道:
公式一这个分布函数的意义:给出随机变量a小于x的概率。它衡量的是一系列图像出现的概率。
4.边缘分布
我们给定的应用背景是识别熊猫和狗。所以当我们拍摄一张熊猫的图片时,会给定该图片熊猫的标签。所以我们在定义随机变量
的时候,应该再加一维,把标注信息y加上,即随机变量为
此时,概率分布函数为
对应 第三节定义的概率分布函数(公式一)则边缘分布函数为
边缘分布函数边缘分布函数的意义就是第三节公式一的含义。
5.条件分布
我们训练一个模型最终的意义是识别熊猫和狗。图片为熊猫时,令y=0。图片为狗时,令y=1.
图二 :狗( y=1 )给定一张图片B,如上图所示,我们要求出该图片属于狗的概率是多少。即,P(y|B)=?
这里图片B是已知的,标签y是未知的。我们要在B已知的情况下,计算y的概率,称为条件分布。
网友评论