这篇文章发表在microniome杂志上,影响因子11.607。文章的第一作者和通讯作者分别是来自于澳大利亚昆士兰州的AR,他的主要研究方向是GWAS及组学分析算法开发研究。通讯作者来自于西班牙巴塞罗那,其主要研究方向是动物遗传育种。
![幻灯片5.PNG](https://img.haomeiwen.com/i17465848/31868feb3011afa3.PNG?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 幻灯片3.PNG 幻灯片4.PNG
接下来,我将从以下四个方面展开汇报。
幻灯片5.PNG
1Backgroud
幻灯片6.PNG 幻灯片7.PNG
2Method
幻灯片8.PNG
为了解决以上三个问题,作者设计了这一个实验:首先是资源群体的建立:由来自7个批次的405只杜洛克猪组成,其中,公猪204头,母猪201头。动物采样工作经相关道德伦理委员会的批准于60日龄进行。微生物部分,实验人员通过提取粪便DNA进行肠道微生物16S和18S测序,下机数据经质控、去嵌合体、划分ASV(扩增子变异)、以及以样本在个体中检出率60%这样一个硬标准过滤得到39个微生物表型性状,其中包括(......),微生物丰度数据继而使用CRL标准化(Centered Log-ratio (CLR) transformation)用于后续分析。基因组部分,实验人员提取血液DNA并使用70K芯片进行基因分型,最终经过全基因组测序流程分析和参数过滤得到了四万两千五百六十二个SNP,数据用于后续分析。结合微生物表型数据和基因型数据,作者构建模型进行全基因组关联分析,GWAS结果用于后续分析,在这里需要说明的是GWAS结果作者计算了FDR,公式如图所示,其中P为检验的P值,A为检验P值时显著的SNP个数,T为检验的SNP总数。为了进一步分析和允许表型之间的直接比较,通过将估计的SNP效应除以所有SNP效应的标准差来标准化。
随后,以GWAS结果构建关联加权矩阵方法的输入文件并结合RIF算法构建AWM,最终挑选出来的基因用使用PCIT算法进行基因关联网络构建。
以上技术路线黑体标注部分,可在昨天上传文件的readme文件中进行阅读学习。
接下来,我将对AWM方法,RIF和PCIT算法进行简单的概述。
幻灯片9.PNG
首先展示的是AWM方法构建基因关联网络文献中的流程图。简单来讲,AWM方法是一种利用多表型GWAS结果,结合网络推理算法来生成基因关联网络的一种新方法。其中AWM用于筛选多表型GWAS结果,RIF算法参与矩阵构建的辅助筛选,PCIT方法主要用于基因网络构建。
幻灯片10.PNG
这三种方法的均有RA教授提出,并分别发表于2008,200,2013年。目前,RIF算法和PCIT算法已经写入CeTF R package,为了更加深入的理解这三种方法,我将按照文献发表顺序及最初被设计的动机对三个方法进行较为具体的概述。首先是PCIT算法,其主要是应用PCIT理论思想来重建基因共表达网络以期鉴定基因之间的联系。其本质上也是通过计算关联系数来构建基因网络。其输入文件是一个相关矩阵,行代表基因,列为不同条件,数值代表基因的表达量。输出文件分别是相关系数、r2的P value以及如tab所示的另一种表现形式。其中,cor1是原始相关系数,cor2是讲过PCIT算法重构之后的相关系数,结果使用第三方软件进行网络绘制。该算法的优点是计算了基因座之间的成对相关性,同时也考虑了第三个基因座的影响,具体推导过程可以阅读上传文件中的原始文件PCIT。
幻灯片11.PNG
幻灯片12.PNG
RF算法最初被设计出来适用于从基因表达数据库中识别关键转录因子,注意这里是关键转录因子。在这个包里,输入文件是如图所示的这样一个矩阵,列代表两种条件下的表型,条件1在前,条件2灾后。行代表基因,顺序是差异表达基因(靶基因)在前,转录因子在后,程序需注明量级关系,以便执行。其返回文件是由所有转录因子的平均数和两个衡量指标构成的数据框。RIF原文这样解释,我的理解是RIF1反映TF与与丰度较高的DE的相关性, RIF2反映TF作为DE基因丰度变化的预测因子的能力。一般而言,这两个指标是没有相关性的。
幻灯片13.PNG 幻灯片14.PNG
关联权重矩阵最初由Frotes等人在肉牛性成熟期的相关研究上被实施(Marina R.S.Fortes et.al,2010)。传统的GWAS往往通过一个单表型的GWAS结果根据P值确定最重要的候选基因来解释一个复杂的性状,但是这个结果解释的程度是有限的,因为复杂性状(如性成熟期,肥胖等)受微效多基因众及生理途径的影响。·原作者开发AWM方法的目的有两个,其一是希望可以有效地处理众多GWAS结果;另外一个则是因为在畜牧生产中往往可以获得一系列的相关表型,希望这个方法可以捕获单性状GWAS可能遗漏的相关联的基因。AWM的构建实际上是一个多方法筛选的过程,包括关键性状SNP筛选,性状关联数目筛选以及距离筛选,最终挑选唯一一个代表某基因的SNP。目前没有写好的包,需要自己写代码去实现。但AWM方法文献中给出了所需要的数据及步骤,具体阅读大家可以在上传文件的readme部分找到。在这里,我们需要输入三个文件,分别是:。。。。经过一些列筛选返回这样一个矩阵,行代表基因,列代表表型,数值是每一个SNP在该性状下的加性效应值。PPT中演示的数据是以绵羊180天体重为关键表型构建的AWM。
幻灯片15.PNG
在本文中,在本文中,代表每个基因的SNP如何挑选?
幻灯片16.PNG
需要说明的是:
1.之所以在这里使用 5KB 挑选,是因为相关文献报道了SNP 的LD r2 在5KB间隔内是大于0.2。
2.作者认为多样性相关SNP和多效SNP是所有标记为转录因子(TF)或microRNA基因(miRNA)的SNP的潜在靶点。
3.在文章中RIF算法的目的是去检测一组基因座、转录因子和microRNA基因中具有高调控潜力的基因座,同时解决细菌和原生生物的crosstalk问题。
以上,基因共表达网络构建完成,作者可能出于解决真是生物学问题及文章撰写的目的,进行了转录因子结合位点预测和miRNA靶基因结合位点的预测分析,这里需要注意的是前面的研究中确定了最重要的两个TF,和1个micro RNA,因此也主要是针对这三个基因组做分析。
3结果
幻灯片17.PNG 幻灯片18.PNG 幻灯片19.PNG 幻灯片20.PNG 幻灯片21.PNG 幻灯片22.PNG 幻灯片23.PNG 幻灯片24.PNG 幻灯片25.PNG 幻灯片26.PNG 幻灯片27.PNG 幻灯片28.PNG 幻灯片29.PNG 幻灯片30.PNG 幻灯片31.PNG 幻灯片32.PNG 幻灯片33.PNG 幻灯片34.PNG
Gene-tailored association between microbial traits
表1列出了受GWAS影响的39个表型在三个P值阈值(P值< 0.05、0.01和0.001)下的显著SNP数量和错误发现率(FDR)。结果发现随着P值变得更加严格,显著SNP数目(越高越好)和FDR(越低越好)之间的权衡。在P值< 0.05、0.01和0.001时,39个表型的平均显著SNP (FDR平均值)分别为4015.3 (FDR = 50.6%)、272.8 (FDR = 16.5%)和87.6 (FDR = 5.8%)。在最严格的P值阈值< 0.001时,显著SNP数量最高(N= 381;FDR = 1.1%)是F这个微生物。显著SNP的数量最低(N= 25;FDR = 17.0%)是C这个微生物
表2给出了39种表型中最显著SNP的基因组图谱位置和统计相关性的详细信息。对于每个snp表型对,距离和最近的基因的身份也列于表2。8号染色体包含最多的相关SNP有5个表型相关,其中一个位于SORCS2的编码区(SNP rs320095924),一个位于TRIM2的编码区(SNP rs329143797)。
(热图)GWAS的结果为AWM、基因共关联网络和调控影响因子方法的研究奠定了基础。在第一步中,对所有39种表型,用所有SNP效应的标准差对估计的SNP效应进行标准化。应用“Methods”部分描述的分析流程,得到的AWM由3561个锚定在单个基因上的SNP组成,其中121个注释为TF, 7个microRNA基因。此外,根据RIF分析,有47个关键调控因子,包括3个microRNA基因。值得注意的是,47个关键调控因子中有10个与任何表型没有显著关联(P < 0.05),它们的相关性可能被GWAS单独忽略。其余3551个基因的相关表型数为1 ~ 13个,平均为3.79个。总共84.08%的SNP map在基因中,15.92%位于注释基因的上游/下游。热图展示的是使用AWM列(在细菌和原生生物多样性和丰度上标准化的SNP效应)计算微生物性状的相关性。
Gene co-association network linked to microbial phenotypes
补充图1为AWM中3561个snp基因的PCIT推断基因共关联网络概述,共连接738,913条连接,其中374,116条边为positive,364,797条边为negative。在该网络中,节点颜色表示具有最强关联的表型。该网络的特征是一个大的中心模块,大多数细菌和原生生物在这里发生串扰,被许多较小的模块包围。细菌alpha多样性(深蓝色节点)的241个,原生生物alpha多样性(亮红色节点)的231个。相比之下,其他细菌丰度被2568个基因捕获(浅蓝色节点),而其他原生生物丰度表型被521个基因捕获(橙色节点)。
Key regulators in the network
RIF分析在AWM过程中选定的基因中确定了47个关键调控因子,列于表3, 47个关键调控因子中最突出的是PRDM15、STAT1、ssc-mir-371、SOX9和RUNX2,它们分别有942个、607个、588个、284个和273个连接
。图2展示了由RIF确定的47个调控因子组成的基因协同网络子网络。
基因多效性(pleiotropy)一个基因可以影响与其无关的性状特征的现象,简单地说就是可以由一个基因影响多个蛋白质的表达。一个基因基本上控制一个性状,若一个基因的突变可使多种性状同时改变,则称此状况为基因多效性(gene pleiotropy),此基因则为多效性基因(pleiotropic gene)。
接下来是对这五个基因的功能汇报;
接下来是对补充文件的结果:
32 - 22.5%的预测靶基因分别具有至少一个对STAT1和PRDM15的tf结合位点(补充表2)。
关于microRNA ssc-mir-371,共鉴定了155个结合位点(补充表3),包含总共71个不同的mRNA基因(初始588个共同相关基因的12%)。在反向互补的3’- utr中寻找背景随机mirna结合位点,共得到115个不同的结合位点(补充表3),包括48个不同的mRNA基因,即与背景随机miRNAmRNA相互作用相比,ssc-miR-371种子中miRNA 7mer-m8结合位点的预期数量增加了1.48倍。
当作者评估rs320008166 (n.59 T > C) 存在的假定结构后果时,前体miRNA发夹折叠的最小自由能(MFE)降低。具体来讲,在miRNA前体区域第59位的这个备选C等位基因的存在意味着野生型miRNA序列中G:U摇摆配对更稳定,引入了稳定的典型Watson-Crick G:C配对。而携带T等位基因的miRNA发夹的MFE =−35.44千卡/mol, T等位基因的存在意味着估计的MFE =−37.74千卡/mol。
此外,作者构建的关系网络中很多关系都得到了验证,结果放在了补充文件中。
到这里基本上就结束了,但第一作者毕竟是做基因算法开发的,对于各类数据的相互关系有很深刻的间接,对表3中的值进行更仔细的检查,可以发现一些有趣的关系。多效性(通过显著相关表型的数量来衡量)和连通性(共关联网络中第一个邻居的数量)显著相关(r= 0.571;P值< 0.0001),表明这两个指标都是反映同一问题的指标。这一发现具有相关性,因为当多效性是由GWAS中显著表型的数量计算出来的时候,连接的数量是共同关联网络中连接的一个特征。这是两个截然不同的概念,当它们指向相同的结果时,就强调了监管机构的重要性。同样,RIF1和RIF2得分存在中度相关(r= 0.421;P值< 0.01),只有RIF2与多效性显著相关(r= 0.471;P值< 0.001),也与连通性显著(r= 0.806;P值< 0.0001)。据我们所知,这种关系以前从未有过文献记载,表明了RIF2分数对调节因子的优先排序能力,在我们的案例研究中,通过区分与细菌性状相关的基因和与原生生物表型相关的基因,即使用RIF方法。为了进一步探索“细菌vs原生生物”的crosstalk,图3显示了一个基因与细菌alpha多样性、基因与原生生物alpha多样性的关联及其在AWM中包含的3561个snp基因的多效性之间的3-way关系。虽然alpha多样性指数是捕获AWM基因的关键表型,但进一步的目标是识别具有多效性潜力的基因(见“方法”)。从图3可以看出,与alpha多样性表型具有接近零但不显著相关的snp基因确实也与大量其他微生物丰度表型存在显著相关,这反映了这些SNP潜在的多效性效应。
表4反映的是与丁酸产生菌和仔猪体重相关的宿主基因组标记。
表5是通过调控因子的显著富集的通路,反映了宿主基因组-微生物的相互作用是由宿主免疫系统部分调节的。因为他们的结果中25个中有16个报告的IPA通路与宿主免疫反应有关。
4结论
幻灯片35.PNG
为了确定宿主基因组在控制健康猪微生物群落多样性和组成中的能力,作者利用70 K芯片对390头猪进行基因分型,对其39个微生物表型进行了全基因组关联研究(GWAS),其中包括两个多样性指数,31个细菌在属水平的相对丰度以及6个共生的原生生物的相对丰度。全基因组关联研究结果通过3个分析步骤处理,包括:关联权重矩阵、调控影响因子、偏相关和信息理论。推测的基因关联网络由3561个基因(在5 kb以内相关的单核苷酸多态性,P < 0.05)和738,913个连接(共同关联的单核苷酸多态性)组成。作者的发现强调了猪肠道微生物生态系统的复杂性和多基因性。在该网络中突出的是PRDM15、STAT1、ssc-mir-371、SOX9、RUNX2 5个调控因子,它们分别聚集了942、607、588、284、273个连接。PRDM15调节WNT和MAPK-ERK信号上游调控因子的转录,以保护天然的多能性,并且调节Th1和Th2型免疫应答的产生。信号转导分子STAT1长期以来一直与免疫过程相关,最近被确定为猪繁殖与呼吸综合征疫苗反应的潜在调控因子。调控因子列表展示了免疫相关通路,补充文件预测靶点列表包括先前报道的与猪、小鼠和人类的微生物区系相关的候选基因,如SLIT3、SLC39A8、NOS1、IL1R2、DAB1、TOX3、SPP1、THSD7B、elF2、PIANP、A2ML1、IFNAR1。此外,作者还发现宿主遗传变异的存在与生产丁酸盐细菌的相对丰度和宿主性能有关。综上所述,作者的结果确定了调控因子、候选基因和宿主调节微生物组的机制。它们进一步强调了提出的分析途径的价值,也就是应该考虑利用基因多效性和细菌与原生生物之间的串扰作为宿主与微生物群相互作用的重要措施用于育种计划,以改善宿主性能和微生物性状,文章发现的遗传标记和候选基因有重要意义。
幻灯片36.PNG
网友评论