美文网首页
突变位点注释软件snpEff 使用详解

突变位点注释软件snpEff 使用详解

作者: 百易汇能 | 来源:发表于2022-12-05 08:37 被阅读0次

通常在获得SNP位点以后,我们肯定想知道这些突变位点在基因组上出现的位置、突变的类型以及危害程度。在此,小编给大家推荐一种变异位点注释软件--snpEff。

1. 软件下载与安装

该软件的开发基于java语言,下载安装比较简单。在Unix系统下,下载解压即可。解压以后有两个文件夹,clinEff和snpEff。我们今天使用的是snpEff。

wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip

unzip snpEff_latest_core.zip

2. 查询可用数据库

运行命令如下

java -jar snpEff.jar databases > snpEff.databases

在snpEff.databases中,42789个数据库可供下载,并列出了下载的基因组名、物种及对应的链接。

3. 下载数据库(以大麦为例)

java –jar snpEff.jar download Hordeum_vulgare

值得注意的是,由于大麦基因组数据的更新,该数据库也相应有所调整,可以在https://sourceforge.net/projects/snpeff/中下载新的大麦的数据库。

4. 进行注释

数据准备:

输入的文件为vcf格式,需要提供的主要信息有:染色体编号(如chr1H)、位置(POS)、参照碱基(REF)及变异碱基(ALT)。

注释命令:

java –jar snpEff.jar Hordeum_vulgare testbarley1H.vcf> testbarley1H.ann.vcf

注释结果有两个:testbarley1H.ann.vcf 和 snpEff_summary.html

在vcf文件中,注释信息以“|”分割:

1: Allele:T表示该突变碱基的类型。

2: Annotation:突变类型(3_prime_UTR_variant, 5_prime_UTR_premature_start_codon_gain_variant, 5_prime_UTR_variant, downstream_gene_variant, initiator_codo_variant, intergenic_region, intron_variant, missense_variant, non_canonical_start_codon, non_coding_transcript_exon_variant, splice_acceptor_variant, splice_donor_variant, splice_region_variant, start_lost, stop_gained, stop_lost, stop_retained_variant, synonymous_variant, upstream_gene_variant) 多个类型之间用&连接。

3: Annotation_impact:对变异位点产生的影响程度进行简单评估,有四个程度(HIGH, MODERATE, LOW, MODIFIER)。

4: Gene_Name:该变异位点所在基因的基因名,如果变异位点的突变类型是intergenic_region,则显示的是离该变异位点最近的一个基因。

5: Gene_ID:基因ID。

6: Feature_Type:变异位点所在的区域类型,transcript,motif,miRNA。

7: Feature_ID:Feature_Type所对应的ID。

8:Transcript_BioType:转录本类型。

9:Rank:只有当变异位点位于基因区域时才有值,当变异位点位于基因区域以外(intergenic_region)时,该字段的值为空。该值给出的是变异位点所处的exton/intron和该基因的exon/intron的总数。

10: HGVS.c:在DNA水平上,采用HGVS标准命名的变异位点的情况。

11: HVGS.p:在蛋白质水平上,采用HGVS标准命名的变异位点的情况。

12: cDNA.pos/cDNA.length:变异位点在cDNA上的位置/cDNA的长度。

13: CDS.pos/CDS.length:变异位点在CDS的位置/CDS的长度。

14: AA.pos/AA.length:变异位点在氨基酸上的位置/氨基酸的长度。

15: Distance:不同的情况,距离的含义是不同的,因此可能会是空值。Up/Downstream:到第一个/最后一个密码子的距离。Intergenic:到最近基因的距离。到外显子中最近的内含子边界的距离(+/-代表上游/下游)。如果相同,使用正数。在内含子中离最近外显子边界的距离(+/-上/下)。到基序中第一碱基的距离。到miRNA中第一碱基的距离。在剪接位点或剪接区域中,离外显子-内含子边界的距离ChipSeq peak:到顶点(或峰中心)的距离。Histone/Histone state:到顶点(或峰中心)的距离。

16: ERRORS/WARNINGS/INFO:添加可能影响批注准确性的错误、警告或信息性消息。可以使用“代码”(如第1列所示,如w1)或“消息类型”(如第2列所示,如warning_ref_dones_match_genome)添加。所有这些错误、警告或信息消息都是可选的。

html文件在网页中查看:

对以下几个方面进行的统计信息,可以根据需要绘制饼图或者柱形图:

                                                                                                           

                                                                                                           END

百易汇能生物——提供专业、高效的高通量测序及多组学分析服务

百易汇能生物引进了高通量测序平台、10x单细胞平台、质谱平台以及华为超算平台。

专注于高通量测序技术在医学健康和生命科学领域的应用,提供国内领先的基因及多组学测序服务。

咨询电话:027-63497508

邮箱:market@bioyigene.com

网址:http://bioyigene.com/

公司地址:武汉东湖新技术开发区高新大道888号高农生物园总部B区20栋5层

百易汇能生物

武汉百易汇能生物科技有限公司坐落于武汉光谷高农生物园总部,是一家专注于第二代、第三代测序技术在人类健康和生命科学研究两大领域应用的高新技术企业。公司现有软件著作60余项,发明专利6项;公司成立以来累计参与发表文章170余篇,其中包括Cell,Nature Genetics,PNAS,Food Chemistry等各领域顶级期刊。

相关文章

网友评论

      本文标题:突变位点注释软件snpEff 使用详解

      本文链接:https://www.haomeiwen.com/subject/ijbbfdtx.html