概率基础
概率定义:重复多次试验,某个事件发生的概率。
条件概率:某一重复试验下,在B事件发生的概率下,A事件发生的概率。
贝叶斯概率:描述了P(E2|E1) and P(E1|E2)之间的关系。
离散变量的概率分布函数:pmf
- 伯努利分布
- 二项分布
- 泊松分布
连续变量的概率密度函数:pdf
- 正态分布
- t-分布
统计推断
从样本数据推获得群体数据相关结论。包括以下两种方法:
置信区间估计
- 点估计,根据样本统计值推断出接近群体该真实值的估计值,计算的置信区间(confidence interval,CI)用来反映该估计值与真实值的变异性。
【当sigma 未知时,以样本的方差代替,并利用t-分布计算置信区间。20次测序数据点估计置信区间图表明,20次试验估计值的置信区间95%概率下趋近真实值的分布,图中第6次实验估计结果远不接近真实值。】
假设检验
- 提出假设,零假设(相对更保守),备择假设
- 收集数据
- 选择合适统计量,依赖于你的假设对象,比较两个均值是选择Z-test或t-test,或检验两个类别型变量的独立性选择Fisher检验或chi-square检验。
- 选择显著性水平,通常是0.05,或0.01
- 确定在显著水平下用来拒绝零假设的critical value
- 计算检验统计值 test statistic
- 比较test statistic 和 critical value
P-value:被用于评价零假设与数据不相容的可能性,P越小,零假设与原始数据越不相容?相容可以指元数据并不符合正态分布假设或数据间并不独立或其他因素。
两类假设检验的错误
- Type I,false positive,拒绝了实际为真的H0。该类错误依赖显著性值alpha,其值越小,犯错误可能性越低。
- Type II,false negative,当零假设为假时没有拒绝零假设。应用功效性评估假设的效果,功效值越大,假设检验结果更好。
【应当首先避免犯一类错误的可能性,其次考虑二类错误。只有增大样本数据量,才能最大程度避免犯两类错误的可能。】
两个类别型变量的chi-square test
有点难,先放一放。
【假设检验的思想就是,对待分析样本根据提出的假设,借助统计分布推断是否拒绝零假设。引入的p值,是对检验结果的另一个评价值。】
非参数检验
t-test 的一个前提是,数据服从正太分布,当一类、二类错误被尽量控制时,虽然数据并不完全是正态分布,其检验结果仍不会有很大偏差。参数检验可以理解为,分析数据能够通过参数决定的分布来描述,而非参数检验则与之相反。
非参数检验包括以下几种:
- Wilcoxon-test: 零假设为数据呈现对称分布。分为单样本、双样本,或pair,unpair 类型检验,在实现函数的相关参数部分根据需要进行更改。
- Fisher 精确检验:列联表式精确检验。
相关性非参数检验
也就是评估样本中变量间的内在关系,也可以理解为变量间独立性的检验。包括pearson 相关系数,Kendall's tau 和Spearman's rho,后两种为非参数的相关性检验方法。
常用的检验方法包括以下几种:
- pearson 相关性系数:是一种最简单的判断方法,但是其只适用于线性关系和数值型数据。是一种参数检验方法。
- Kendall's tau:当Kendall's tau值大于零是,彼此正相关,否则为负相关。
-
Spearman's rho: 直接对X,Y变量的值的排序值进行相关性评估。
【相比于pearson 相关系数,后两种方法主要有一下几点优势:1. 即使数据做了一些变化,仍能反映变量间真实的相关性;2. 一般而言,非参数检验结果更好。】
Kendall's tau vs. Spearman's rho
其他内容PPT
概率回顾条件概率
全概率公式
贝叶斯公式
离散型变量概率分布函数
连续型变量概率密度函数
正态分布
点估计
点估计置信区间与真实值变异性
sigma 未知的均值估计
假设检验
假设检验实例
test statistic 远大于critical value,reject H0
P-value
网友评论