原文链接:
Scalable Open Science Approach for Mutation Calling of Tumor Exomes Using Multiple Genomic Pipelines
图片摘要亮点概述
- MC3是一个针对来自33种癌症的超过10,000个外显子样本数据的变异识别项目;
- 通过7种不同的变异检测方法(MuTect, MuSE, VarScan2, Radia, Pindel, Somatic Sniper, Indelocator)共检测到了超过300万个体细胞突变,这些变异构成了PanCan Atlas项目多篇文章的基础;
摘要概述
- TCGA包含来自33种不同类型癌症的超过10,000个癌症-正常外显子对的数据,总原始数据量达到了400TB;
- Multi-Center Mutation Calling in Multiple Cancers project: MC3项目;
背景概述
- 测序的费用下降很迅速,但是相比较而言,计算和数据存储的成本下降速度则要慢得多,这使得在基因组队列中对原始数据进行核心分析变得困难(making it difficult to deploy core analysis on raw data in genomics cohorts);
研究方法及结果
A. 云部署和再现性
- 数据比对,GATK处理以及使用MuTect和Indelocator进行变异识别的工作是在博德研究所的Firehose system进行的;其他如对超过1000个肿瘤-正常组织对的GATK Indel重新比对以及碱基质量值重新校正是在加州大学圣克鲁兹分校的集群上进行的;处理之后的文件存储在CGHub系统上;
- 在多于四周的时间范围内,使用接近180万个核时对400TB的数据进行了变异识别,变异识别是在DNAnexus系统上调用Pindel, MuSE, Radia, Varscan, and SomaticSniper pipelines完成的;
- 每一个样本都计算了一个OxoG score,计算工作是在系统生物学研究所的癌症基因组云上进行的,数据验证工作则是通过Broad Firecloud platform进行的;
- 该项目中的大部分流程(pipelines)都是为了便于在多种计算环境下部署而设计的,为了确保流程的再现性(reproducibility),项目采用了现代工作流技术(modern workflow technologies):1)软件容器:将软件及其依赖的运行环境都进行打包;2)每一个软件工作的运用都提供一个参数文件,定义软件的输入、输出和各种参数;3)流程说明文档:说明各个软件是如何组合在一起的,哪些参数是需要调整的,以及需要的输入文件是什么等;
- 为了便于发布,MC3流程是使用通用工作流语言格式(Common Workflow Language format)进行描述,并将需要的软件通过Docker容器技术进行打包;
B. MC3变异识别策略及与AWG MAFs的比较
- 通过前述的7种变异识别软件以及一系列过滤方法,得到了变异列表;哪些位于非外显子区域的变异,如内含子和5'及3‘端UTR区域的变异仅限于受控访问的版本中才有(也就是说开放访问的版本中不包含);此外,对于缺乏足够覆盖深度区域的变异,或者是存在于常见panels中的变异,也被从开发访问的版本中过滤出来了,因为这些变异有可能是生殖细胞突变;
-
两个不同版本的样本变异情况分布图:
4.png
C. 体细胞过滤对开放访问版本的影响
- 为了符合TCGA中开放访问数据的发布指南,MC3努力采取了重要的步骤来去除潜在的生殖细胞突变和非外显子区域的变异;
- 过滤条件:
1)低深度覆盖(low normal depth coverage)区域的变异;
2)非外显子区域的变异;
3)非捕获区域的变异;
4)被Broad Panel of Normals标记的区域的变异;
5)被ContEst软件标记的被污染的样本的变异;
6)只被一种caller识别的变异;
满足以上任何一种条件的变异都被过滤掉了! - 过滤结果:
-------------------- | ---------- 过滤前 ---------- | ---------- 过滤后 ----------
--- SNV --------- | --- 13,044,511 ----------- | --- 3,427,680 -------------
--- Indel --------- | --- 9,441,116 ------------ | --- 173,283 ----------------
--- 总计 ----------| --- 22,485,627 ---------- | --- 3,600,963 -------------- - 过滤后发现,皮肤和肺癌的样本中位SNVs是最多的;
- 为了进一步阐明过滤对生物学发现的影响,研究人员又利用MutSig2CV和MuSiC2两种软件分别对KIRC的过滤前及过滤后的且都标记为PASS的变异分别进行显著突变基因(Significantly mutated gene, SMG)分析;
- 分析使用严格的P-value阈值,最后两种软件都各自找到了10个SMGs,其中有7个基因是一致的:
TP53, PTEN, VHL, SETD2, PBRM1, BAP1和MTOR; - MutSig2CV单独找到的:TCEB1, PIK3CA和ATM; MuSiC2单独找到的:ERBB4, SLITRK6, and KDM5C;
- 对为筛选的变异列表进行分析,各自找到了大量的SMGs:前者1,203个,后者321个。这个结果表明,使用为过滤的变异去找真正的显著变异的基因非常困难!
D. 通过实验验证对MC3项目的变异识别结果进行性能评估
(未完待续)
(尼玛,该死的简书,后面本来还有一大段笔记,居然没有给我保存!!!)
网友评论