美文网首页
Broad Institue视频笔记:Variant Calli

Broad Institue视频笔记:Variant Calli

作者: 生信start_site | 来源:发表于2020-09-12 02:57 被阅读0次

    这篇笔记是几个视频内容的综合,每个视频里我只选取了几张PPT。主讲人举例了一篇已经发表的文章来进行具体的流程分析。这篇文章里的外显子数据分析基本是一个比较标准的流程。样品是来自法洛四联症(TOF)的患者(TOF是一种常见的先天性心脏畸形)。对照组使用的是一组正常人样品。分析的目的是试着去寻找导致这种疾病的risk factors(genes or variants)。视频地址:这里

    法洛四联症基本病理为室间隔缺损、肺动脉狭窄、主动脉骑跨和右心室肥厚。 法洛四联症在儿童发绀型心脏畸形中居首位。

    下面这张图是文献的作者的分析流程,虽然使用的参考基因组版本比较老,GATK软件也不是最新版的,但是流程是比较经典的,还是很值得借鉴的:

    需要注意的是:如果你使用和文献里不同的GATK版本,得到的结果可能和文献里有较大的差别!

    因为外显子测序的原始数据绝大部分是不公开的,所以有时候我们很难拿到测序的原始数据进行完整的流程练习。这里对于上面的文献来说也一样,所以主讲人团队就构建了fake data,从而可以进行演示分析的流程。因为数据很大,所以GATK团队把这些模拟数据放在了google cloud里,方便大家使用。数据地址链接:这里

    在这个google cloud里,有一个名字为“synthetic-exomes-mutated”和它下面的“synthetic-exomes”文件夹里,是所有模拟数据的bam文件和bai文件,以便于我们使用(注意:使用google cloud需要先注册一个google账号):

    分析的具体代码可以在这个网站找到:https://app.terra.bio/#workspaces/help-gatk/Reproducibility_Case_Study_Tetralogy_of_Fallot/workflows
    这个网站打开后,前3个流程是不需要我们具体了解的,是这个团队构建模拟数据的流程(这个网站去年还有一个30天免费的试用,结果现在木有了。。。在视频里,你可以直接在网站里运行你的data,这样就不用你自己找服务器去运行了):

    我们需要关注的是从第4个流程开始,是由bam文件如何利用GATK来生成GVCF文件;第5步是根据上一步得到的GVCF文件进行joint calling。从而得到cohorts VCFs。最后一步是使用GEMINI来预测variants。

    拿到bam文件后,就可以call variants了,那么第一步是要先鉴别哪些是active regions。主要是根据reference先“切段”,每一个window是一定长度,默认值是多少主讲人说她也忘了,但是大概是几百bp左右。然后记录在这个规定长度的window里,有多少个events。比如说有多少个mismatches,多少个Indels,又有多少个soft-clips(什么是soft clips,请参考文章:基因组比对文件(SAM/BAM)中 Soft Clip 与 Hard Clip的含义描述)。

    得到active regions之后,需要针对这些区域做重比对,从而组装最有可能存在的单倍体。再把这些单倍体比对到参考基因组上。就可以得到潜在的variants位点了。

    第三步,haplotypecaller会把每一条read和单倍体进行配对,然后打分,输出一个矩阵。

    然后软件会计算每一个位点最可能的基因型(实际上主讲人还讲了好多关于数学模型的东西,有的PPT我没有放上来,听不懂,对这个过程原理感兴趣的同学可以自己去看一下视频,我找了一篇中文的原理介绍:GATK:HaplotypeCaller变异检测,还有一篇:你的GATK haplotypecaller是怎么工作的?):

    运行haplotypecaller,如果你想让软件生成VCF文件,使用basic mode,如果想生成GVCF文件,需要添加参数。这里需要输入的文件是bam文件:

    上面的代码最后生成的是一个一个的GVCF文件,每一个样品有一个GVCF文件。之后需要把这些单独的GVCF文件整合到一起,就是下面的步骤:joint calling。对于不同版本的GATK,在joint calling这一步有些许差别:

    体现到代码上也会有差别,所以需要注意:

    在运行完joint calling后,运行GenotyeGVCF,就可以得到最后的数据了:

    拿到了最终的variants,我们还需要对它们进行过滤。来排除假阳性:

    主讲人这里推荐一般使用GQ<20来过滤variants。

    我们还可以把这些variants进行注释,可以帮助我们发现哪些突变是新生突变,而不是通过孟德尔遗传规律从父母那里获得的:

    你也可以用Mutect2来进行tumor-normal pair的分析:

    在这个网站里:https://www.csc.fi/en/web/training/-/gatk2019,GATK团队还推荐了几篇关于GATK的综述,供大家学习。因为我目前的课题没有涉及到全基因组/全外显子测序,所以我并没有去下载视频里的模拟数据进行练习,只是看了视频,先了解一下call variants的大体流程(虽然目前我不用这个软件,但是我得知道它是干什么的,别人提起来不至于啥都听不懂)。还有个原因是学校的服务器分给我的储存空间只有100G,不够好几百个bam文件放在里面去分析了。有条件的同学、需要使用GATK分析自己数据的同学,还是要去阅读这些综述,可以有一些更深的了解。

    相关文章

      网友评论

          本文标题:Broad Institue视频笔记:Variant Calli

          本文链接:https://www.haomeiwen.com/subject/vcnsektx.html