生物统计——离散/连续型随机变量与常见分布

作者: Dawn_WangTP | 来源:发表于2019-07-19 19:58 被阅读0次

本文是对孟浩巍
生物信息学入门课：学习生信你需要了解的统计学课程的学习。即将开始新的PhD life，乘着暑期时间充裕，再重新回顾学习下生物信息的底层知识——生物统计学。

一. 统计学入门路线与基础知识导读

1. 教材与课程资源推荐

概率论与数理统计（《概率论基础教程——Sheldon Ross》）；医学统计学；概率论教程；
线性代数+多元统计学；应用回归分析(最小二乘法回归)。
统计学习（统计需要进行实验设计）；机器学习

2. 概率论学习的重点

概率论学习重点
- 随机变量和概率的独立性，条件概率，贝叶斯概率公式
- 随机变量的分布函数，常见的离散/连续分布；
- 随机变量的数字特征（期望，方差）
- 假设检验的基本思想，p-value；t-test
- 单因素方差分析
- 简单线性回归（本质上检验多重检验的问题）
医学统计学上的学习重点
- 上述重点的应用
- 列联表检验（GO/KEGG）：Fisher' test; 卡方检验
- 生存分析，生存曲线，比较两根曲线有差异；
- Cox回归分析（风险回归分析）
一些进阶的课程
- 《多元统计分析及R语言建模》MOOC（icourse163）
- 《应用回归分析R语言版》书籍
- 线性代数/多元统计是机器学习，人工智能的基础
线性代数学习重点
- 矩阵运算的本质是空间变换
- 常用矩阵运算法则
- 特征值，特征向量的几何理解
- 常用矩阵分解（普分解）
- 二次型及其性质
多元统计分析（做应用）
- PCA主成分分析（样本数多少的时候，PCA成分好）
- 线性判别分析
- 聚类分析（不同聚类方法：欧式距离，曼哈顿距离）
- 因子分析（哪个基因最重要）
统计学习+机器学习；吴恩达MOOC
- 支持向量机（SVM）
- 聚类算法
- Logistics回归；
- 决策树模型；
- EM算法；
- 隐马尔可夫模型（HMM）
- 提升算法

二. 随机变量与概率的计算

1. 什么是随机试验？与随机变量？

例如掷色子，抛硬币，任意时间到达车站。量X是随着试验的结果的不同而变化。

离散型随机变量（所有可能取的值为有限个）
连续型随机变量（可能取值无穷多）

2. 什么是概率？概率如何计算？

根据概率的公理化定义来推导出来。而非概率的收敛

3. 什么是随机变量的分布律，概率密度函数？

离散型变量：随机变量的分布律

随机变量的概率分布律
连续型变量X：概率密度函数f(x)

image

4. 什么是随机变量的概率分布函数？

离散型和连续型随机变量二者都可以求概率分布函数F(X)。分布函数是一个累加的效应

三. 常见离散随机分布

1. 二项分布

image

二项分布的性质

X轴为出现某个事件的次数，y轴为出现对应次数的概率。

当p为0.5时，分布是最对称的，当p为0~1其它数时，分布是不均匀的。
在生信上的应用：在基因组上进行mutation判断的时候，利用二项分布进行检验。(具体计算genome wide的所有突变率当作参数p，背景mutation，总reads数为n；判断某一特定位点是否为mutation：观察到突变数为k的pvalue)
缺点：计算量巨大。所以通常情况下，在总数n很大，p很小，np不大的时候用泊松分布进行拟合，效果非常好。

2. 泊松分布

泊松分布

仅有一个参数“入”，即是期望均值，又是方差。

可以理解为单位时间内，出现概率非常小的事的概率就服从泊松分布。
- 具体例子如：单位时间内洪水发生的次数；矿井在某段时间发生事故的次数；WGS中比对到某一个区域内的reads count；RNA-seq中1个gene中比对到的reads count数目。
泊松定理：泊松分布是二项分布的极限分布，当n比较大，p比较小（p<0.1,np<10）时候，二项分布可看成是参数为np的泊松分布。
大多是利用泊松分布去近似计算

n=100000
p=10^(-4)

#二项分布binorm
pbinorm(q=0,size=n,prob=p)

#泊松分布ppoison
ppois(q=0,lambda=n*p)

3. 超几何分布

超几何分布

无放回的抽样
GO富集与KEGG富集中的Fisher Exact Test就是利用超几何分布

4. 几何分布

几何分布

出现第一次成功所需要的实验次数；
几何分布是具有无记忆性的。假设已经有m次都没有成功，那么为了首次成功再等待的时间是与前面失败次数m是无关的。

5. 负二项分布（帕斯卡分布）

image

Reads count就是使用泊松分布的估计和负二项分布的修正。genome很大，reads落到genome的任意一个区域是一个很小概率的事件。可以认为服从泊松分布。reads count就是服从泊松分布。
缺点：不能保证随机抽样的结果符合期望和方差相等。

image

disperson 即为k

6. Lander Waterman曲线

image

M=1表面就是个完整的基因组。M>1表面还有很多部分没测到。需要增加很多测序量，M下降的为log的测序。

四. 常见连续随机分布

(概率密度函数)

1. 指数分布

各种寿命的分布的近似。
指数分布具有无记忆性。可以理解为是几何分布的极限推广。

2. Gamma分布

常作为某个事件总共出现N次的等待时间；
可以理解称负二项分布的连续推广。
芯片数据处理时利用Gamma分布。

3. 正态分布（高斯分布，误差分布）（Normal distribution）

image

正态分布的3sigma法则：1sigma 68.3%，2sigma 95%，3sigma 99%的面积。
对应boxplot：中位数，Q1下四分数点，Q3上四分数点，IQR，Q1-1.5IQR，Q3+1.5IQR，超过为离群点。2.698sigma已包含98%以上的数

image
若影响某一数量指标的随机因素很多，而每个因素所起的作用都不大，则这个指标就服从正态分布。
正态分布的加和也服从正态分布。

4. 大数定律和中心极限定理

大数定律：随机变量的平均值能够收敛到期望值。

中心极限定理：大量随机变量的加和之后的分布再某些条件下是逼近正态分布的。

网友评论

本文标题：生物统计——离散/连续型随机变量与常见分布

本文链接：https://www.haomeiwen.com/subject/yaxelctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

生物统计——离散/连续型随机变量与常见分布

一. 统计学入门路线与基础知识导读

1. 教材与课程资源推荐

2. 概率论学习的重点

二. 随机变量与概率的计算

三. 常见离散随机分布

1. 二项分布

2. 泊松分布

3. 超几何分布

4. 几何分布

5. 负二项分布（帕斯卡分布）

6. Lander Waterman曲线

四. 常见连续随机分布

1. 指数分布

2. Gamma分布

3. 正态分布（高斯分布，误差分布）（Normal distribution）

4. 大数定律和中心极限定理

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生物统计——离散/连续型随机变量与常见分布

一. 统计学入门路线与基础知识导读

1. 教材与课程资源推荐

2. 概率论学习的重点

二. 随机变量与概率的计算

三. 常见离散随机分布

1. 二项分布

2. 泊松分布

3. 超几何分布

4. 几何分布

5. 负二项分布（帕斯卡分布）

6. Lander Waterman曲线

四. 常见连续随机分布

1. 指数分布

2. Gamma分布

3. 正态分布（高斯分布，误差分布）（Normal distribution）

4. 大数定律 和 中心极限定理

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

4. 大数定律和中心极限定理