SnpEff is a variant annotation and effect prediction tool. It annotates and predicts the effects of genetic variants (such as amino acid changes)
利用variant calling得到的vcf文件和gff3格式的基因组注释文件得到变异位点位于基因组的什么位置(外显子、内含子等)以及变异位点为同义突变或者为非同义突变的信息。
软件下载地址
http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
软件主页
http://snpeff.sourceforge.net/SnpEff_manual.html
软件帮助文档
http://snpeff.sourceforge.net/protocol.html
本文参考
本文使用到的数据
GATK4.0和全基因组数据分析实践(上)完全重复这篇教程得到的vcf文件。
这篇教程是使用大肠杆菌的数据来介绍基因组重测序的分析流程,细致入微,强烈推荐!
步骤
- 下载软件(无需安装,解压出来即可直接使用)
- 构建自己研究物种的数据库,本文是大肠杆菌
cd snpEff ###进入snpEff目录下
mkdir data ###新建data目录
cd data ####进入data目录下
mkdir genomes ####新建genomes目录
mkdir ecoli ###新建ecoli目录
在这里ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/下载对应的基因组序列和gff3格式的注释文件,基因组序列放到genomes目录下,并重命名为ecoli.fa;gff文件放到ecoli目录下,并且重命名为genes.gff。
cd genomes
gzip -d GCF_000005845.2_ASM584v2_genomic.fna.gz
mv GCF_000005845.2_ASM584v2_genomic.fna ecoli.fa
cd ../ecoli
gzip -d GCF_000005845.2_ASM584v2_genomic.gff.gz
mv GCF_000005845.2_ASM584v2_genomic.gff genes.gff
cd ../../ #回到snpEff目录下
然后回到snpEff目录下,使用命令
echo "ecoli.genome:ecoli" >> snpEff.config
将ecoli.genome:ecoli
添加到snpEff.config
文件中
使用命令java -Xmx4G -jar snpEff.jar build -gff3 ecoli
构建数据库,成功的话在data/ecoli
目录下会多出一个snpEffectPredictor.bin
文件
准备工作完成,接下来就可以注释了
使用到的命令
java -jar snpEff.jar ecoli vcf_ann_Practice/E_coli_K12.filter.vcf > Ecoli.eff.vcf
#或者
java -Xmx4G -jar snpEff.jar ecoli vcf_ann_Practice/E_coli_K12.filter.vcf > Ecoli.eff.vcf
#-Xmx4G应该是可以控制使用的内存
输出结果包括三个文件
-rw-rw-r--. 1 Pomgroup Pomgroup 56K Jul 3 12:58 snpEff_genes.txt
-rw-rw-r--. 1 Pomgroup Pomgroup 302K Jul 3 12:58 snpEff_summary.html
-rw-rw-r--. 1 Pomgroup Pomgroup 609K Jul 3 12:58 Ecoli.eff.vcf
snpEff_summary.html 文件中是一些汇总结果
image.png
image.png
正常还有很多结果会以图片的形式展示出来,但我们的结果文件中通常加载不出来,需要科学上网
关于结果如何解读自己还需要认真琢磨!比如Number of effect是什么意思!
本文提到的vcf示例文件大家可以从文章里提到的基因组重测序教程获得,或者可以关注我的微信公众号小明的数据分析笔记本
在后台回复
snpEff
即可!
网友评论