#软件下载
wget https://downloads.sourceforge.net/project/snpeff/snpEff_latest_core.zip
#解压缩
unzip snpEff_latest_core.zip
SnpEff软件的主要程序是snpEff.jar,该软件需要Java运行程序。SnpEff使用最多的程序就是build和eff,build适用于数据库的构建,eff适用于对SNP/InDel进行注释。
构建数据库
SnpEff软件的运行,首先需要基因组fasta序列信息和GTF注释信息,来构建数据库。
配置文件如下:
1.在~/soft/snpeff/snpEff目录中,创建一个文件夹:data
2.在~/soft/snpeff/snpEff/data目录下,创建一个文件夹
NIP/
这个文件夹中,分别放置了GTF文件和基因组文件
genes.gtf sequences.fa
3.编辑~/soft/snpeff/snpEff/snpEff.config文件
在文件的最后一行添加信息:
NIP.genome: NIP
构建数据库步骤如下:
java -jar /public/home/fengting/soft/snpeff/snpEff/snpEff.jar build -c /public/home/fengting/soft/snpeff/snpEff/snpEff.config -gtf22 -v NIP
#参数说明
java -jar: Java环境下运行程序
-c snpEff.config配置文件路径
-gtf22 设置输入的基因组注释信息是gtf2.2格式
-gff3 设置输入基因组注释信息是gff3格式
-v 设置在程序运行过程中输出的日志信息
最后的NIP参数 设置输入的基因组版本信息,和~soft/snpeff/snpEff/snpEff.config配置文件中添加的信息一致
使用SnpEff进行注释
java -Xmx10G -jar ~/snpEff/snpEff.jar eff -c ~/soft/snpeff/snpEff/snpEff.config NIP germline.pass.vcf> zs.vcf -csvStats zs.csv -stats zs.html
每种类型注释的信息
SnpSift 提取信息
/java -jar SnpSift.jar extractFields -s '; ' -e '-' snpEff.vartype.vcf "CHROM" "POS" "ID" "REF" "ALT" "QUAL" "FILTER" VARTYPE[*] GEN[*].GT ANN[*].ALLELE ANN[*].EFFECT ANN[*].IMPACT ANN[*].GENE ANN[*].GENEID ANN[*].FEATURE ANN[*].FEATUREID ANN[*].BIOTYPE ANN[*].RANK ANN[*].HGVS_C ANN[*].HGVS_P ANN[*].CDNA_POS ANN[*].CDS_LEN ANN[*].AA_POS ANN[*].AA_LEN ANN[*].DISTANCE ANN[*].ERRORS LOF[*].GENE LOF[*].GENEID LOF[*].NUMTR LOF[*].PERC NMD[*].GENE NMD[*].GENEID NMD[*].NUMTR NMD[*].PERC > table.xls
最后需要注意的是missense_variant表示的是非同义突变,感谢张老师和谢老师及梁师兄的指导。
网友评论