变异注释发生在变异提取之后,获取VCF(Variant Call Format,VCF)文件后,目前从下机数据比较快速获取VCF变异文件的工具为Sentieon,使用变异注释软件进行变异基因的注释,在此以Alamut Batch为例,展示变异注释所需要的功能:
Alamut Batch模块作为高效的高通量人类变异注释引擎,为NGS变异检测提供了众多功能和数十个注释能力:
*Alamut Batch注释引擎支持人类基因(包括蛋白质编码、非蛋白质编码、伪基因);
*Alamut Batch对原始NGS变异的数据富集,主要通过集成精心设计Alamut软件套件数据库和高效的外部预测工具实现 ;
*Alamut Batch可轻易集成到任何相关分析的Pipeline中(Linux、Windows);
*Alamut Batch所涉及文件格式均遵照行业标准格式,兼容性强(例如tab-delimited、VCF等);
*Alamut Batch可以根据用户需求,将注释严格限制在用户指定的区域 ;
*Alamut Batch将注释文件中引入的外部注释集中输出到结果文件中 ;
*Alamut Batch为Windows用户提供可视化的前端界面 ;
*Alamut Batch提供两种工作架构形式:客户端-服务端分离版本、独立版(包含Alamut数据库)。
这些需要具备的主要能力!
按照注释的种类进行划分:
基础注释:
*基因:symbol, HGNC id, OMIM® i
*转录本:RefSeq id, strand, length
*蛋白:RefSeq id, Uniprot id, domains
*变异类型:substitution, deletion, insertion, duplication, delins
*编码影响:synonymous, missense, nonsense, in-frame, frameshift, start loss, stop loss
*变异位置:upstream, 5’UTR, exon, intron, 3’UTR, downstream
*HFGVS命名:gDNA-level, cDNA-level, protein-level
*外显子、内含子编码
变异数据库注释:
*dbSNP, ExAC, ESP/EVS
*ClinVar, SwissProt
*COSMIC (此数据库为免费数据库)
基因剪接预测:
*MaxEntScan, NNSPLICE, SpliceSiteFinder, GeneSplicer预测
*对最邻近原始剪接位点的影响
*对变异邻近的剪接影响(例如:新剪接位点,邻近隐藏剪接位点的激活)
*分支剪接位点预测
错义突变注释&预测:
*phastCons与phyloP核酸保守分数
*编码细节预测
*BLOSUM分数,Grantham距离与氨基酸物化特性
*越来越多的错义突变预测工具:SIFT,Align GVGD,MAPP
参考传送门:变异注释Alamut
网友评论