美文网首页想法
读文献-大规模全基因组基因芯片数据集中的布尔推断网络

读文献-大规模全基因组基因芯片数据集中的布尔推断网络

作者: 克里克的钟 | 来源:发表于2019-10-09 22:51 被阅读0次


    Boolean implication networks derived from large scale, whole genome microarray datasets

    大规模全基因组基因芯片数据集中的布尔推断网络

    Abstracts

    We describe a method for extracting Boolean implications (if-then relationships) in very large amounts of gene expression microarray data. A meta-analysis of data from thousands of microarrays for humans, mice, and fruit flies finds millions of implication relationships between genes that would be missed by other methods. These relationships capture gender differences, tissue differences, development, and differentiation. New relationships are discovered that are preserved across all three species. 

        本文定义了一种方法,用于提取大量基因表达数据中基因间的布伦逻辑关系,这些关系可能在用其他方法分析时会丢失。这些关系可以捕获性别差异,组织差异,发展和分化等。有一些新的在多个物种间保守的关系也能够通过这种方法被发现。

    Introduction

        许多基因芯片的数据是公开的,可以通过挖掘获得一定的见解。许多基于芯片挖掘的工作都构建了基因间两两关系的网络,表明一些基因是共同表达的。本文提出一种新的方法,利用数千个微阵列数据来识别整个基因组中基因之间的更大范围的关系。该方法通过自动设定基因阈值,获得两个基因间的逻辑关系,可能的关系有六种。Boolean implication network就是通过绘制量基因的散点图和阈值获得的图形。普通的方法只能发现大数据集中的对称性的关系,而Boolean implication network能发现更多。

    Materials and methods

    Data collection and preprocessing 数据收集和处理

    • 4787个Affymetrix U133 plus 2.0人的基因芯片cel文件,2154个小鼠的,450个果蝇的cel文件通过GEO数据库中获得。

    • 使用内存优化的RMA算法进行标准化处理;

    • 使用log2对所有表达值进行处理;

    • 使用stepMiner算法描述的方法进行阈值的计算,主要用的到是线性回归的原理。简单的说,先将表达值按照从小到大进行排列,然后使用stepMiner拟合一个上升的step。这种方法获得一个从低到高的最大跳跃值(必须有足够的观测值才能避免其他干扰),这个位置就是阈值。通过这个阈值,就将表达值分为低表达和高表达。

    • 如果获得的阈值是t,表达值大于t+0.5的定义为high,即高表达;小于t-0.5的定义为low,即低表达。而在这之间的值定义为intermediate,即中间值,在分析过程中是忽略的。如果一个基因的三分之二的表达值都落在中间值范围内,那么这个基因就被排除在分析的范围之内。

    Discovery of Boolean relationship

    • 对于A和B两个因子,存在6中可能的布尔关系,由四种boolean implication构成,A low-->B low, A low-->B high, A high-->B low和A high-->B high。这四种implication构成了散点图的四个象限(中间值是忽略的)。因为阈值总是合理的区分低表达和高表达值,因此最多只有两个象限是稀疏的。

    • 当存在两个稀疏象限时,A和B的关系为对称关系,等效或者相反。其他情况只存在一个稀疏象限,有4中可能性:A low-->B low;A low-->B high; A high-->B low 以及A high--> B high。

    • 认定一种implication必须满足两个条件:

        假定a00, a01, a10和a11分别代表四个象限,0表示low,1表示high;

    稀疏象限的统计检验

        An implication is considered significant if the first statistic is greater than 3.0 and the error rate is less than 0.1.就是说,如果statistic>3,同时error rate<0.1,这个implication被认为是显著的。

    下图为阈值设置和boolean implication的分析流程:

    booelan implication 分析流程

    Results

    Boolean implications are prevalent in gene expression microarray data/基因表达微阵列数据中普遍存在布尔推断

    • 基因表达值使用的是对数值(log2),所有的数据来源于同平台的芯片。

    • 每一个probset分别计算出一个阈值t,画出表达值的散点图,根据基因A和B的阈值,将散点图分为了4个象限;通过统计分析存在一个或两个稀疏象限时,说明A和B之间存在Boolean implication。

    • 存在四种不对称关系和两种对称关系;

    六种不同的Boolean implication的散点图

    通过这种算法,计算出了非常多的implications,如表1

    Boolean relationship in human,mouse and fruit fly datasets

    • 在人的数据中可以看到,只有1%的关系是对称的,不对称的占了99%。

    • 有很多high-->low implication的原因可能是基因表达的组织和细胞特异性。

    另外一个有意思的现象是相同基因的不同探针,出现的结果也是可能不相同的。

    Boolean implications identify known biological properties and potentially new biological properties

    • Boolean implication可以捕获大量的已经证明的生物学现象,可以显示性别差异,发展,分化,组织特异性和共表达等。

    Descriptions of data sources are consistent with the biology of the Boolean implications

    数据源的描述与布尔推断的生物学是一致的

    Many Boolean relationships are highly conserved across multiple species

    许多的boolean关系在不同种属间是高度保守的

    Boolean implication networks are more comprehensive than correlation-based networks

    布尔推断网络比相关网络更全面

    Boolean implication networks are not scale free

    Computing the Boolean implication network is fast and the output is transparent

        • 在2.4 Ghz、8gb内存的计算机上构建人类数据集隐含网络的总计算时间为2.5小时。

    (主要关注的点在于研究的方法是怎么样的,因此对于结果的后面部分没有太在意,尤其是不同物种比较的内容)

    Conclusion

        布尔推断提供了一种对基因组规模数据的透视图,揭示了其他类型的分析所忽略的具有生物学意义的关系,这可能是因为这些方法寻找不同类型的关系,也可能是因为它们不能扩展到整个基因组水平。对3个不同物种的数千个阵列的元分析显示了在数据中暴露生物信息的布尔推理的一些潜力。在meta分析中构建的隐含关系网络中,隐含关系的数量几乎是等价关系的100倍。与性别和组织类型相关的差异很明显。仅在特定发育或分化阶段活跃的基因之间的关系也很明显。许多布尔关系在人类、老鼠和果蝇之间是守恒的。在细胞周期和cns特异性基因丰富的基因簇之间存在高度保守的关系。在MYC和核糖体基因之间保守的非对称布尔暗示暗示网络中存在生物学相关的调控关系。可以想象,布尔蕴涵网络可以提供一个新的发现平台,为进一步的实验探索提供新的生物学假设。即使使用大量的基因表达数据,这些网络也能被快速计算出来,而且输出结果是易懂的,易于操作。布尔网络可在布尔网络网站上搜索。(链接http://gourd.stanford.edu/BooleanNet,但是本人网络根本打不开,不知道教育网是否能打开)

        理解布尔含义的局限性是很重要的。每一个推论在数据中都是经验观察到的关系,这可能不适用于为不同组织类型或在不同条件下收集的数据。与相关网络一样,布尔推断网络也不能捕捉因果关系。事实上,已知的转录因子及其靶标之间的调控关系往往没有相应的含义。这是可以预料的,因为还有许多其他因素涉及基因调控,但在基因表达数据中并不明显,如蛋白质激活、参与涉及多个蛋白质的复合物,以及对启动子的组合调控。

        我们相信布尔推断的最大潜力是与其他类型的数据和其他类型的分析相结合。例如,结合来自特定干扰的数据,如基因沉默或药物治疗,以及结合转录因子结合关系,一些含义可以解释为因果关系。此外,含义可以用来做对更复杂模型的搜索。例如,只有当A高B低时,布尔关系“C高”才成立。

    感想

        最初接触到Boolean implication这个东西是在两年多以前,是新英格兰医学杂志上的一篇文章(CDX2 as a Prognostic Biomarker in Stage II and Stage III Colon Cancer)。这篇文章使用这种方法找到了CDX2这个基因,并通过大量的数据分析得出了CDX2表达阴性可以鉴定出高风险的II期结肠癌患者。

    CDX2 分析的流程图

    当时想,我是不是可以通过这种方法来找到我感兴趣基因的Boolean implication,做一些有意思的事情。

        为了这个想法的实现,我花了大量的时间查找相关的背景知识,相关文献。找到stepMiner这个软件,但是很长一段时间都不知道这个阈值是怎么计算出来的。从github上找到这个相关的项目,但是使用的是python语言写的;然后在这期间,我自学了一些python语言,发现自己还是搞不定;自学了R语言数据分析,最后在另外一个人的github项目里面找到了关于这个阈值计算和稀疏象限的计算方法,基于R语言的。终于把这两个问题初步解决了。这里面还有一个问题是关于FDR(false discovery rate)怎么计算的,还没有完全搞明白。

        因为不懂不理解搞不定,中间放下好几次,对自己说封存一年,如果觉得还是有意义,再重新来找资料学。最终还只是明白大概。虽然目前还不能完整运行这个过程,但相比两年多前的盲目抓瞎,以经提高太多了。感谢坚持的自己。

        最后,我决定把这个写下来,一个是记录一下自己的心得;二来是如果有人刚好也对这个感兴趣,说不定可以好好交流交流。

        关于阈值计算的原理,Sahoo D在这篇文章之前有说明,有时间把这个再整理一下,可以把计算公式和R语言代码一起写,可能比较好理解和实现。

    Ref: 

    Sahoo D , Dill D L , Gentles A J , et al. Boolean implication networks derived from large scale, whole genome microarray datasets[J]. Genome biology, 2008, 9(10).

    相关文章

      网友评论

        本文标题:读文献-大规模全基因组基因芯片数据集中的布尔推断网络

        本文链接:https://www.haomeiwen.com/subject/fqenpctx.html