eQTL就那样~(2)

作者: 医学小蛋散 | 来源:发表于2020-06-10 11:04 被阅读0次

前言

我还未想到这个专题叫什么......

暂定“XXX就那样”?


6.GTEx数据库是什么?

首页:https://gtexportal.org/home/

     “人类GWAS-转录组-疾病表型补完计划”,噢不,基因型-组织表达计划(Genotype-Tissue Expression project),就是干了这个事。

       是的,还真的已经做出来了!10年前的2010年起,GTEx研究联盟的研究收集并研究了来自449名生前健康的人类捐献者的7000多份尸检样本,涵盖44个组织(42种不同的组织类型),包括31个实体器官组织、10个脑分区、全血、两个来自捐献者血液和皮肤的细胞系,作者利用这些样本研究基因表达在不同组织和个体中有何差异。

      是的!你没有看错,根据上一话第五点,为了实现这个目的,是需要同时进行了转录组测序和基因分型分析的,才能构建了这个组织特异性的基因表达和调控的数据库。

       就是一个这样“泯灭人性”的项目,我说的不是伦理,是资金!即使是现在,一个WES测序都要2-3千人仔!这玩意不要说在5年前的2015,就算是现在,都不是一个随随便便的课题组的经费能够支持的!这是接受美国国家卫生研究院(NIH)资助的,是一个国家级的项目!目的就是要绘制出记录人DNA中影响基因表达的序列片段的详细图谱!

7.GTEx数据库中转录组测序和基因分型都用了什么仪器?

生信常用软件而已,没啥,可以直接跳过。但是知道这些,就就知道了有哪些“类似的”数据可以合并(拿来发文章啊,不要告诉我你看这个不是为了搞科研,发文章,迎娶白富美,走上人生巅峰!~)。

7.1 对于RNA seq

通过illumina Truseq试剂盒构建polyA+文库,采用Hiseq 2000/2500进行测序,对于下机数据,采用STAR进行比对,参照选择的是gencode V19版本的gtf文件,进行了以下3个level的定量

7.1.1 gene-level, 采用RNAseQC软件,对基因的raw countTPM两种方式进行定量

7.1.2 exon-level, 对exon的raw count进行定量

7.1.3 transcript-level,采用RSEM进行转录本水平的定量

测序平台:Expression Data

- Illumina TrueSeq RNA sequencing

- Affymetrix Human Gene 1.1 ST Expression Array (V3; 837 samples) 

7.2 基因分型 genotype

通过WGS对样本进行分型, 采用的是GATK germline variants calling的流程,步骤如下

bwa-mem alignment;picard markduplicate;BQSR;indel realign;haplotypeCaller

测序平台: Genotype Data

- Whole genome sequencing (HiSeq X; first batch on HiSeq 2000)

- Whole exome sequencing (Agilent or ICE target capture, HiSeq 2000)

- Illumina OMNI 5M Array or 2.5M SNP Array

- Illumina Human Exome SNP Array

7.3. eQTL

通过FastQTL软件进行cis-eQTL分析,将基因型和基因表达量进行关联。

8.cis-eQTL分析?什么是cis?能吃的吗?

我们首先需要搞清楚,什么是cis(adj. 同侧的,顺式的)?

看到这里,我们知道了染色体上一些能特定调控mRNA和蛋白质表达水平的区域(一堆SNPs),其mRNA/蛋白质的表达水平量与数量性状成比例关系。

为什么gene表达水平(转录组水平上的),与DNA水平上的snp有关呢?

因为:gene表达水平,与启动子有关。启动子增强,gene 表达水平升高。如果snp位于启动子区域,那么这个snp可能会影响收该启动子调控的gene的表达水平(eQTL关系)。

而这种eQTL关系可分为顺式作用eQTL和反式作用eQTL。

简单来说,就是你(数量性状)要向喜欢的人(基因)表达,要不就是直接和那个人表白(顺式作用,cis),要不就是和其他人搞暧昧,搞到喜欢的人吃醋,向你表白(反式作用,trans),如下:

顺式作用eQTL:

就是某个基因的eQTL定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的mRNA水平变化;

反式作用eQTL:

是指某个基因的eQTL定位到其他基因组区域,表明其他基因的差别控制该基因mRNA水平的差异。

顺式作用eQTL和反式作用eQTL

然后,eQTL分析都分析些啥?

我们首先复习一下:

      “与单个基因mRNA表达量相关的DNA突变,就被称为eQTL”。

     什么是相关(显示两个随机变量之间线性关系的强度和方向)?如何定义相关?

     当然方法很多,相关性分析,线性回归分析,非线形回归分析等。

     他们选择了“线性回归” ,如下:

     以全部DNA变异位点(已有:基因分型结果,SNP位点)为自变量(研究者主动操纵,而引起因变量发生变化的因素或条件,被看作是因变量的原因),轮流以每种mRNA表达量(已有:RNA seq结果)为因变量(结果,我们一开始就想知道如何影响基因表达这个结果啊),用大量的个体数据做样本进行线性回归,就可以得到每一个SNP位点和每一个mRNA表达量之间的关系

    多数情况下,我们关心的是“这一个SNP位点在这一个/附近mRNA表达量之间的关系”,所以做的是cis-eQTL分析。

    最后,

    GTEx项目中采用的是FastQTL软件用于cis-eQTL分析,至于具体原理可以参考在Bioinformatics杂志上发表的文章(https://academic.oup.com/bioinformatics/article/32/10/1479/1742545)。解析这高大上的玩意就完全影响了本文接地气的初衷了。

9.如何阅读eQTL分析?

      eQTL的分析结果本质就是一些调控基因表达的SNP位点,箱体图或者小提琴图什么的只是经典的可视化方式而已。

箱体图或者小提琴图eQTL例子

   按照SNP分型结果对样本进行分组,用箱体图或者小提琴图的方式展示不同组别中基因表达量的分布,直观的比较不同分组中表达量的差异。 如左图表示,有一堆人,分别有69个TT、134个TC和127个GG三个基因型。然后纵坐标是基因表达量(通常是经过各种共变量“调教”后的值),可见,TT中的一群这个基因(RGMB)在食管组织(自己选的组织)中表达“提高”。

10.使用GTEx的Gene eQTL Visualizer,来看看都有什么SNPs影响我们“亲爱的”目的基因的表达

首先打开 https://www.gtexportal.org/home/

下拉到这里,点击Locus Browser进去 使用示例,随便打一个基因(你感兴趣的基因也行)

界面如下:

留意上面的几个按钮,从左至右:显示variant的名字、使用泡泡图显示、选择感兴趣的组织、中间的是放大或缩小基因位置,点击后最右边的基因window会随着改变。

换个喜欢的样子(气泡图):

纵坐标表示不同的组织,横坐标表示不同的位点。蓝色越深,代表effect size越负,越红则effect size越正。圆圈代表-log10(p-value),越大则P值越小,越有cis调控可能。

按需要移动感兴趣的基因区间

可以调用蓝色的框框,左右移动到感兴趣的地方

这里的下方,可以看到连锁不平衡(Linkage disequilibrium,LD) 分析

越黑,代表那个区域的几个SNPs有高的LD,意味着这些信号(SNP)可能不是相互独立的。 点击图中的红色/蓝色格子(或圆圈)就会显示某一个SNP在某一个组织中,不同的基因分型如何影响你自己输入的感兴趣基因的表达

    连锁不平衡 (linkage disequilibrium)是指在某一群体中,不同座位上某两个基因同时遗传的频率明显高于预期的随机频率的现象。 

    简单地说,只要两个基因不是完全独立地遗传,就会表现出某种程度的连锁。这种情况就叫连锁不平衡。连锁不平衡可以是同一条染色体上的不同区域也可以是不同染色体上的。

后记:

最后补充简书eQTL中的一个总结得很好的图:

可做的各种结合分析

好哒,eQTL就那样~

参考文献:

1.Brandt, Margot, and Tuuli Lappalainen. "SnapShot: discovering genetic regulatory variants by QTL analysis."Cell171, no. 4 (2017): 980-980.

2.简书:https://www.jianshu.com/p/2e1e9d3ccd63

3.https://www.cnblogs.com/leezx/p/10795353.html

4.GTEx:基因型和基因表达量关联数据库

5.GTEx数据库-TCGA数据挖掘的好帮手

6.https://www.cnblogs.com/zypiner/p/12499922.html

7.https://cloud.tencent.com/developer/article/1556265

8.eQTL Analysis例子:https://www.youtube.com/watch?v=J9Ezog3wEjE

9.GTEx Portal: Introduction to the Gene eQTL Visualizer, https://www.youtube.com/watch?v=O_IytGX9H9I

10.值得借鉴的eQTL可视化形式:https://cloud.tencent.com/developer/article/1554719

相关文章

  • eQTL就那样~(2)

    前言 我还未想到这个专题叫什么...... 暂定“XXX就那样”? 6.GTEx数据库是什么? “人类GWAS...

  • eQTL就那样~(1)

    前言 我还未想到这个专题叫什么...... 暂定“XXX就那样”? 我们先来个斗鸡眼,看着一下中间的QT。 1.什...

  • 多组学联合分析-Matrix eQTL

    找到Matrix eQTL这个包,看下文章Matrix eQTL: ultra fast eQTL analysi...

  • eQTL

    归纳几篇eQTL相关文章。 1.转自https://www.cnblogs.com/Acceptyly/p/390...

  • Useful online resources

    Systems Genetics: +eQTL mapping analysis cookbook +ASE

  • Post-GWAS: eQTL、mQTL共定位分析(Summar

    1、eQTL、mQTL共定位分析的作用 eQTL、mQTL共定位分析属于Post-GWAS的一项重要工作,旨在GW...

  • 关于eQTL

    https://www.jianshu.com/p/2e1e9d3ccd63

  • 那样,对,就那样

    我在驱赶 鞭炮中的耗子 它说它相信我是不得已的啊! 窗边透光,而我在吃饭啊! 多么晚,的光 圆的像人生的窗 没有理...

  • 跟着Nature Communications绘制eQTL相关图

    导入相关R包 construct dataframe of cis eQTL numbers Figure 1A ...

  • 就那样

    就那样从星星突然聊到小时候,我说,我记得很清楚,一年级的时候特喜欢一句古诗“危楼高百尺,手可摘星辰”。全诗我一下子...

网友评论

    本文标题:eQTL就那样~(2)

    本文链接:https://www.haomeiwen.com/subject/mfnytktx.html