美文网首页
从差异基因中确定靶标 - 过表达

从差异基因中确定靶标 - 过表达

作者: 纪伟讲测序 | 来源:发表于2020-12-16 09:35 被阅读0次

 从差异基因中确定靶标 - 过表达

    目前转录组测序实验,已经是非常常用的技术。几乎成为寻找差异分子(如mRNA/lncRNA/circRNA/miRNA)最重要的手段,同时该实验多是整个课题的开始,因此该实验的好坏,直接影响课题的进度以及课题的质量。

    由于测序仪极为昂贵加上数据分析需要较强的计算机编程能力,如需懂linux,R,perl,Python等。绝大多数的老师还是会选择找公司做这个实验。那么实验做的好还是坏,数据分析的好用还是不好用,就看公司了。与其,凭感觉选择公司,不如多了解,公司到底能提供哪些实验及分析服务。

    本着解决客户一切问题的原则(转录组测序相关)。我们上海生因生物科技有限公司,建立了全方面的数据分析体系。包括测序数据本身各种分析,还包括分子挑选,机制构建等多种个性化分析。

    我们会遇到这样的场景:我用药物处理,建立了疾病模型,然后拿着样品做RNAseq,找到了几百上千个差异基因,那么这么多基因该如何选择呢?我们过表达了一个分子如lncRNA,mRNA,miRNA,将样品拿去做RNAseq,也会找到几百,上千个差异基因。那么哪些基因是该分子的靶标呢?

    既然已经发生了差异表达,那么这些基因基本都有可能是重要的基因,可是还得挑。看了大量的机制研究文献会发现,这个靶标基因应该有这样的特征:1)在疾病中有差异表达,2)该基因会影响疾病的进程,比如影响肿瘤的增殖凋亡过程。

    我们可以将差异基因分别过表达,敲低,看细胞表型的变化。这个方法虽好,但不现实,几百个基因的过表达实验将是一笔不小的费用。

    在TCGA/GEO中有各种肿瘤的表达谱数据如mRNA, lncRNA, miRNA等。我们可以依据该基因的表达高低对样品重新分组,然后计算两组的差异基因。如果差异基因显著富集到周期、凋亡等肿瘤相关的通路。我们可以认为该基因是影响肿瘤进程的。可以作为我们机制中的靶标基因。

    好的,本文,我们选择了一个数据,作者研究肿瘤,过表达lncRNA,做了RNAseq,找到了差异基因。我们使用TCGA数据进一步分析这些差异基因中进一步筛选哪些更有可能是他的靶标。

  差异基因共有两百多个,以下是数据列表截图:

    在TCGA数据中下载相应癌(胃癌)基因表达数据,分别提取待选基因的表达量,根据其表达量的大小,取高表达的1/3与低表达的1/3,将TCGA数据分成高低表达两组,继而进行差异分析。

1. 差异表达分析

 以基因候选基因E2F1为例:我们将其分成高低组后,做差异分析,可以得到如下差异基因列表:

得到上调基因489个,下调基因982个。

2. 差异基因GO功能富集分析

  我们对得到的差异基因进行GO功能富集分析发现,涉及到细胞周期相关的生物学过程,如下表:

3. 差异基因KEGG功能富集分析

我们对得到的差异基因进行Pathway功能富集分析发现,涉及到细胞周期相关的通路,如下表:

胃癌中E2F1基因过表达后,显著影响周期相关的生物学过程,和通路。说明该基因跟肿瘤的增殖密切相关,可以作为候选靶基因基因。

4. 多基因通路富集分析

同理,我们对其他基因也做了如上的处理,得到其他基因影响的通路,以周期通路显著性p值由小到大排序得到如下表:

从表中可以发现两百个基因中,以下54个基因均对能影响胃癌的增殖过程:

    CDCA5, FEN1, KIF2C, TPX2, ATAD2, MCM2, RRM2, PLK1, RACGAP1, KIF18B, ZWINT, KPNA2, MELK, ARHGAP11A, FANCI, AURKA, CCNB1, KIF20A, BUB1B, LMNB1, CDC6, TOP2A, PRR11, PTTG1, CEP55, CDCA3, NCAPG2, H2AFZ, E2F1, MCM7, MKI67, PKMYT1, CHAF1A, INCENP, TOMM40, PBK, HMGB2, RRM1, KPNB1, EBP, PPM1G, ENO1, PTBP1, IQGAP3, SRRT, HNRNPA2B1, DDX39A, SMC1A, HMGB1, NCL, LPP, ACAT2, DNMT1, HDGF

    这样我们就将靶标基因缩小到很小一部分。后续可以根据这些基因在TCGA中的差异程度,预后等进一步筛选。

相关文章

网友评论

      本文标题:从差异基因中确定靶标 - 过表达

      本文链接:https://www.haomeiwen.com/subject/ildfgktx.html