2.1 贯穿本章的例子
一份用于研究前列腺癌与基因关系的数据:102个人中50个正常,52个是癌症患者,统计每个人的6033个前列腺相关基因。
数据用维的矩阵
表示:
则基因i的双样本t检验统计量为(latex显示有误,是均值):
![](https://img.haomeiwen.com/i6655519/7c559de5d7a20695.png)
为了后续方便,将t转换为z,
![](https://img.haomeiwen.com/i6655519/22e12f90ba70e773.png)
由于有6033多个假设要检验,因此需要多重检验修正,比如使用Bonferroni方法计算中心距4.31以上的才认为显著。但是似乎过于严格了,会降低正确发现率。
经验贝叶斯提供了一种宽松些的多重检验方法。
2.2 贝叶斯方案
由于数据集是H0和H1的混合,我们可以定义其中H0概率为,H1概率为
,以及对应的概率密度函数
和
,对应样空间
的概率累计函数
和
。则对应的混合分布为:
因此如果,则
属于H0的概率为:
上述概率被称为“Bayes false discovery rate”,也可以写为
如果只包含一个点
:
被称为“local Bayes false discovery rate”,也写作
![](https://img.haomeiwen.com/i6655519/57f2c8e416303509.png)
由于
定义(Lehmann alternatives)则
![](https://img.haomeiwen.com/i6655519/3847efa2878ecb2a.png)
注意:
当很小时
2.3 经验贝叶斯估计
2.3.1 评估方法
上一节的混合分布的定义中,认为是已知的,
常常接近1,最重要的未知就是
显然可以用经验贝叶斯方法来评估错误发现率(简书显示有误,不是平方)
![](https://img.haomeiwen.com/i6655519/73af7d3df0b0826c.png)
其中分母为混合分布的经验分布。
2.3.2 效果好坏
满足条件的的个数可以表示为:
![](https://img.haomeiwen.com/i6655519/c6f06765ac76174a.png)
则 (同样有显示错误,正确公式是下图)
![](https://img.haomeiwen.com/i6655519/4e8e04a2f2098c9b.png)
其中未知参数为
带入到2.1的例子中,如果我们
2.4 经验贝叶斯错误发现率的点估计
根据上文可知:
其中是阳性的期望数量,
是错误阳性的期望数量。
而我们也不知道错误发现的比率:
据此可以得到3个相关数字():
![](https://img.haomeiwen.com/i6655519/e3f91b0fe6a70024.png)
接下来会讨论它们之间的关系。
引理2.1
在已知前提下
![]()
其中
上述引理标明empirical Bayes false discovery rate预期比实际比例大。
如果将做变量求期望,可以得到
所以Bayes false discovery rate是Fdp的上界。
引理2.2
如果定义平方变异系数
则经验贝叶斯错误发现率与贝叶斯错误发现率之比![]()
均值近似为,方差近似为
引理2.2告诉我们经验贝叶斯的精度取决于。如果假设
间独立,可以得到更有意思的结果。
设互相独立,则
是二项分布:
平方变异系数为:
由于我们感兴趣的一般很小,则
。则根据引理2.2,经验贝叶斯错误发现率与贝叶斯错误发现率之比:均值近似为
,方差近似为
其中的关键为和独立,带入2.1的例子中,可知经验贝叶斯错误发现率与贝叶斯错误发现率之比近似为1.02标准差为0.14,可以据此构建置信区间。
如果在保持独立前提下,假设N服从泊松分布,即:
引理2.3
在泊松独立假设下:
其中
大规模推断中一般H1也是存在的,因此取做上界存在高估,一种简单的修正:
引理2.4
在泊松独立前提下
注意:当比较小时(比如小于10),两种估计都可能存在严重偏差。
2.5 独立 vs 相关
独立假设对FDR来说非常重要,但是非常危险。在第7和第8章会展开讨论。
2.6 从其它个体信息中学习2
考虑类似上章的贝叶斯结构
我们可以用它来模拟假设检验:
其中是德尔塔函数,
是H1的先验概率密度函数。
本章例子中,可以通过其它基因信息评估和
,再通过贝叶斯理论结合
,对基因i进行推断。详细会在后面的章节展开。
本章概念
![](https://img.haomeiwen.com/i6655519/7ffe15cc5fb1814b.png)
网友评论