使用snpEff对VCF进行注释

作者: xuzhougeng | 来源:发表于2020-04-14 12:51 被阅读0次

R语言XML包获得html文件中的表格
使用snpEff对VCF进行注释
SnpEff使用方法
snpEff注释vcf
按位点提取vcf文件并获取注释的基因
使用VEP对植物进行基因注释
用uniq -c 获得的每个字符串的个数的一列该如何提取
使用snpEff注释vcf文件的小实例
SnpEff: SNP的vcf文件注释
SnpEff：vcf注释软件安装及应用

使用snpEff分为两种情况，一种是snpEff已经构建了相应的数据集（例如人类和小鼠），另一种是则是snpEff未提供相应的数据集（例如自己组装的基因组）

情况1: 我们可以使用java -jar snpEff.jar databases | grep -i human的方式列出所有的数据集，然后用grep进行筛选

例如人类的基因组注释数据集就分为GRCh37.p13.RefSeq和GRCh38.p7.RefSeq两种

Candidatus_paraburkholderia_schumannianae  Candidatus_paraburkholderia_schumannianae...
GRCh37.p13.RefSeq  Human genome GRCh37 using RefSeq transcripts...
GRCh38.p7.RefSeq  Human genome GRCh38 using RefSeq transcripts...
Pediculus_humanus Pediculus_humanus...

输出结果的第一列是基因组的版本号，我们根据这个版本号进行下载

java -jar snpEff.jar download GRCh38.p7.RefSeq

使用上面这种方法，我们无法保证数据下载速度，也不能保证注释信息时刻最新，因此我更推荐自己下载相应的基因组序列和注释文件，然后构建注释数据集。

我们编辑snpEff文件夹下的snpEff.config, 增加新的物种信息。尽管能够在该文件的任何一行添加信息，但是为了方便查找，建议在# Databases & Genomes后增加记录。

# XXX
XXX.genome : 物种名

这里的XXX是物种注释信息的版本号，XXX要和data下的文件夹对应

mkdir -p data/XXX

在data下面存放两个文件

sequences.fa.gz: 参考基因组
genes.gff.gz: 注释文件，GFF3格式（也可以是GFF2格式）

之后就可以用build子命令进行构建

java -jar snpEff.jar build -gff3 -v XXX
# -v: verbose
# -gff3/gff2/-gtf22

建立数据库之后，注释这一步就相对简单

java -jar snpEff.jar ann XXX input.vcf.gz > snpeff.vcf

默认情况下snpEff的注释信息会很多，我们可以用如下几个参数来简化输出

-no-downstream
-no-upstream
-no-utr
-no-intergenic
-no-intron

比如说我们只关注CDS中的注释信息，不考虑上游、下游、UTR、基因间区等信息

java -jar snpEff.jar ann -no-utr -no-downstream -no-upstream -no-intergenic XXX input.vcf.gz > snpeff.vcf

最终除了输出的vcf文件外，我们还会有额外两个文件，记录总结性信息

snpEff_genes.txt: 总结每个基因的突变位点数
snpEff_summary.html: 总结突变的类型数

R语言XML包获得html文件中的表格
需求使用snpEff软件对vcf格式文件进行注释后会生成一个snpEff_summary.html;这个文件是对...
使用snpEff对VCF进行注释
使用snpEff分为两种情况，一种是snpEff已经构建了相应的数据集（例如人类和小鼠），另一种是则是snpEff...
SnpEff使用方法
SnpEff使用方法 SnpEff 软件通过基因组结构注释数据（GTF文件），对VCF文件中的SNP/InDel信...
snpEff注释vcf
关于snpEff：SNPeff比bcftools具有更多的注释功能。snpeff是用于变异注释的软件，其中的eff...
按位点提取vcf文件并获取注释的基因
这算是笔记。。。。前提是总vcf文件已经用snpeff注释过了
使用VEP对植物进行基因注释
前两天使用snpeff进行基因注释，结果发现不少错误，所以就是用vep来进行注释，同样的位点，发现vep的注释是对...
用uniq -c 获得的每个字符串的个数的一列该如何提取
以snpeff注释过的vcf文件为例，我需要提取每个snp注释的类型并把这些类型排序计数，然后得到每个类型的个数思...
使用snpEff注释vcf文件的小实例
SnpEff is a variant annotation and effect prediction tool...
SnpEff: SNP的vcf文件注释
SnpEff文章标题：A program for annotating and predicting the e...
SnpEff：vcf注释软件安装及应用
需要准备的内容: 环境：Linux 或 Ubuntu，已经安装openjdk 文件：通过 GATK 流程得到的变异...