1、概率建模的意义
在统计理论里,世界被认为是一个随机过程,大部分现象都可以用随机事件来描述。由于真实世界的复杂性,从宏观角度来看,建立一个考虑N重条件的准确物理模型来准确预测事件是不可行的,因为穷尽所有条件是不现实的。因此,与其使用准确但复杂的物理模型来描述一个现象,不如使用一个简单但高效的概率模型。
数据与模型,基于模型依赖概率生成数据,借由数据可以统计生成模型。
2、常见概率模型
-
binom
: 离散型,二项分布,有放回抽样,从N个样本的样本池内抽取n个样本,这n个样本内包含A样本的个数服从二项分布; -
geom
: 离散型,几何分布,有放回抽样,首次抽到A样本所需次数服从几何分布; -
hyper
: 离散型,超几何分布,无放回抽样,从N个样本的样本池内抽取n个样本,这n个样本内包含A样本的个数服从超几何分布; -
nbinom
: 离散型,负二项分布,有放回抽样,第i次抽到A样本所需次数服从负二项分布; -
pois
:离散型,泊松分布,一种n很大p很小的二项分布,稀有事件的发生次数服从泊松分布; -
norm
:连续型,正态分布,这是由大量随机干扰项(误差因素)综合作用下事件发生的结果所服从的分布,真实世界里大多数事件服从正态分布; -
unif
:连续型,均匀分布,最简单的一种分布; -
exp
:连续型,指数分布,通常稀有事件的发生时间间隔服从指数分布,一般接触较少; -
gamma
和beta
:伽马分布是指数分布的特例,这两种常在贝叶斯中使用。
3、概率密度与概率分布(累计概率) 值
R语言的概率函数前缀:d
:概率密度函数;p
:概率分布函数;
-
概率分布函数: 离散性概率分布函数较为直接,每个自变量的概率和即为对应的分布函数
;
如pbinom(50, 100, 0.5)
计算了在100次独立重复试验中,成功的次数不超过50次的概率。 -
概率密度函数: 实质上指的是连续性随机变量的概率分布。概率密度函数
上的函数值不是概率本身,(只是事件概率分布拟合曲线的一个函数结果,取值可以大于1),连续型随机变量的概率是这个曲线下的区间积分,函数内讨论单个点不具有意义。
如dbinom(50, 100, 0.5)
计算了在100次独立重复试验中,成功的次数为50次的概率。
3、随机数生成
runif
生成均匀分布的随机数
rnorm
生成正态分布的随机数
4、统计量
sd
方差; var
方差; mean
均值;
样本的均值和方差用于推断数据所属总体的均值方差,即使总体不服从正态,这两个统计量也能有效帮助我们了解总体的中心和离散程度。
median
适用于当数据存在非常严重离群值的情况下来了解数据总体的中间位置。不过大多数情况下,均值在很多统计意义上能更好的反映数据的某些性质。一般中位数可以与均值做比较来检查数据情况。
5、多元变量
cov
生成多元变量的协方差矩阵。对角为变量方差,两变量间为协方差,协方差反映两个变量间的相关性,但是之间比较不直观,通常用相关系数来反映相关性。
cor
生成多元变量的相关性矩阵。对角为变量自相关,两变量为Pearson相关分数(默认)。
psych::cor.test(dat[,1:3])
生成多元变量的相关性检验,同时生成相关系数矩阵和检验P值,检验的原始假设H0:两两变量间不具有相关性。
网友评论