美文网首页
生物统计——离散/连续型随机变量与常见分布

生物统计——离散/连续型随机变量与常见分布

作者: Dawn_WangTP | 来源:发表于2019-07-19 19:58 被阅读0次

    本文是对 孟浩巍
    生物信息学入门课:学习生信你需要了解的统计学课程的学习。即将开始新的PhD life,乘着暑期时间充裕,再重新回顾学习下生物信息的底层知识——生物统计学。

    一. 统计学入门路线与基础知识导读

    1. 教材与课程资源推荐

    1. 概率论与数理统计(《概率论基础教程——Sheldon Ross》);医学统计学;概率论教程;
    2. 线性代数+多元统计学;应用回归分析(最小二乘法回归)。
    3. 统计学习(统计需要进行实验设计);机器学习

    2. 概率论学习的重点

    1. 概率论学习重点
      • 随机变量和概率的独立性,条件概率,贝叶斯概率公式
      • 随机变量的分布函数,常见的离散/连续分布;
      • 随机变量的数字特征(期望,方差)
      • 假设检验的基本思想,p-value;t-test
      • 单因素方差分析
      • 简单线性回归(本质上检验多重检验的问题)
    2. 医学统计学上的学习重点
      • 上述重点的应用
      • 列联表检验(GO/KEGG):Fisher' test; 卡方检验
      • 生存分析,生存曲线,比较两根曲线有差异;
      • Cox回归分析(风险回归分析)
    3. 一些进阶的课程
      • 《多元统计分析及R语言建模》MOOC(icourse163)
      • 《应用回归分析R语言版》书籍
      • 线性代数/多元统计是机器学习,人工智能的基础
    4. 线性代数学习重点
      • 矩阵运算的本质是空间变换
      • 常用矩阵运算法则
      • 特征值,特征向量的几何理解
      • 常用矩阵分解(普分解)
      • 二次型及其性质
    5. 多元统计分析(做应用)
      • PCA主成分分析(样本数多少的时候,PCA成分好)
      • 线性判别分析
      • 聚类分析(不同聚类方法:欧式距离,曼哈顿距离)
      • 因子分析(哪个基因最重要)
    6. 统计学习+机器学习;吴恩达MOOC
      • 支持向量机(SVM)
      • 聚类算法
      • Logistics回归;
      • 决策树模型;
      • EM算法;
      • 隐马尔可夫模型(HMM)
      • 提升算法

    二. 随机变量与概率的计算

    1. 什么是随机试验?与随机变量?

    例如掷色子,抛硬币,任意时间到达车站。量X是随着试验的结果的不同而变化。

    • 离散型随机变量(所有可能取的值为有限个)
    • 连续型随机变量(可能取值无穷多)

    2. 什么是概率?概率如何计算?

    • 根据概率的公理化定义来推导出来。而非概率的收敛

    3. 什么是随机变量的分布律,概率密度函数?

    • 离散型变量:随机变量的分布律


      随机变量的概率分布律
    • 连续型变量X:概率密度函数f(x)


      image

    4. 什么是随机变量的概率分布函数?

    • 离散型和连续型随机变量 二者都可以求概率分布函数F(X)。分布函数是一个累加的效应

    三. 常见离散随机分布

    1. 二项分布

    image 二项分布的性质

    X轴为出现某个事件的次数,y轴为出现对应次数的概率。

    • 当p为0.5时,分布是最对称的,当p为0~1其它数时,分布是不均匀的。

    • 在生信上的应用:在基因组上进行mutation判断的时候,利用二项分布进行检验。(具体计算genome wide的所有突变率当作参数p,背景mutation,总reads数为n;判断某一特定位点是否为mutation:观察到突变数为k的pvalue)

    • 缺点:计算量巨大。所以通常情况下,在总数n很大,p很小,np不大的时候用泊松分布进行拟合,效果非常好。

    2. 泊松分布

    泊松分布

    仅有一个参数“入”,即是期望均值,又是方差。

    • 可以理解为单位时间内,出现 概率非常小的事 的概率就服从泊松分布。
      • 具体例子如:单位时间内洪水发生的次数;矿井在某段时间发生事故的次数;WGS中比对到某一个区域内的reads count;RNA-seq中1个gene中比对到的reads count数目。
    • 泊松定理:泊松分布是二项分布的极限分布,当n比较大,p比较小(p<0.1,np<10)时候,二项分布可看成是参数为np的泊松分布。
    • 大多是利用泊松分布去近似计算
    n=100000
    p=10^(-4)
    
    #二项分布binorm
    pbinorm(q=0,size=n,prob=p)
    
    #泊松分布ppoison
    ppois(q=0,lambda=n*p)
    
    

    3. 超几何分布

    超几何分布
    • 无放回的抽样
    • GO富集与KEGG富集中的Fisher Exact Test就是利用超几何分布

    4. 几何分布

    几何分布
    • 出现第一次成功所需要的实验次数;

    • 几何分布是具有无记忆性的。假设已经有m次都没有成功,那么为了首次成功再等待的时间是与前面失败次数m是无关的。

    5. 负二项分布(帕斯卡分布)

    image
    • Reads count就是使用泊松分布的估计和负二项分布的修正。genome很大,reads落到genome的任意一个区域是一个很小概率的事件。可以认为服从泊松分布。reads count就是服从泊松分布。
    • 缺点:不能保证随机抽样的结果符合期望和方差相等。
    image

    disperson 即为k

    6. Lander Waterman曲线

    image
    • M=1表面就是个完整的基因组。M>1表面还有很多部分没测到。需要增加很多测序量,M下降的为log的测序。

    四. 常见连续随机分布

    (概率密度函数)

    1. 指数分布

    • 各种寿命的分布的近似。
    • 指数分布具有无记忆性。可以理解为是几何分布的极限推广。

    2. Gamma分布

    • 常作为某个事件总共出现N次的等待时间;
    • 可以理解称负二项分布的连续推广。
    • 芯片数据处理时利用Gamma分布。

    3. 正态分布(高斯分布,误差分布)(Normal distribution)

    image
    • 正态分布的3sigma法则:1sigma 68.3%,2sigma 95%,3sigma 99%的面积。

    • 对应boxplot:中位数,Q1下四分数点,Q3上四分数点,IQR,Q1-1.5IQR,Q3+1.5IQR,超过为离群点。2.698sigma已包含98%以上的数

      image
    • 若影响某一数量指标的随机因素很多,而每个因素所起的作用都不大,则这个指标就服从正态分布。

    • 正态分布的加和也服从正态分布。

    4. 大数定律 和 中心极限定理

    大数定律:随机变量的平均值能够收敛到期望值。

    中心极限定理:大量随机变量的加和之后的分布再某些条件下是逼近正态分布的。

    相关文章

      网友评论

          本文标题:生物统计——离散/连续型随机变量与常见分布

          本文链接:https://www.haomeiwen.com/subject/yaxelctx.html