ANNOVAR|绵羊基因组变异注释 Gene-based Annotation
ANNOVAR是由王凯老师编写的一款用于SNP等变异位点注释的软件,在注释软件(Annovar, SnpEff, VEP,Oncotator)中相对引用较高。
突变注释工具SnpEff,Annovar,VEP,oncotator比较分析:
https://blog.csdn.net/weixin_34365635/article/details/85980917
annovar自带人类基因组hg18、hg19 、hg38、以及鼠、蠕虫、酵母等的数据库,可能对于临床方向的朋友比较方便,但同时对于研究非人类物种的朋友来讲,需要自行下载物种相应基因组版本的最新注释数据库进行注释。
本文以农场动物--绵羊为例,对分析过程做一记录。
ANNOVAR能够利用最新的数据来分析各种基因组中的遗传变异。主要包含三种不同的注释方法,Gene-based Annotation(基于基因的注释)、Region-based Annotation(基于区域的注释)、Filter-based Annotation(基于筛选的注释)。ANNOVAR由Perl编写。
软件
官网:https://annovar.openbioinformatics.org/en/latest/user-guide/download/
一位朋友下载的annovar.latest(2020年6月8号修改的最新版):https://www.baishujun.com/wp-content/uploads/2020/06/2020061107593651.zip
注册(需使用机构邮箱) -> 网站发送邮件 -> 直接邮件下载(邮件收信需要等待10min左右) -> 解压安装
tar -zxvf annovar.latest.tar.gz
#解压cd进入annovar文件夹之后会看到下图,里面有6个perl脚本程序和两个文件夹。
ANNOVAR
│ annotate_variation.pl #主程序,功能包括下载数据库,三种不同的注释
│ coding_change.pl #可用来推断蛋白质序列
│ convert2annovar.pl #将多种格式转为.avinput的程序
│ retrieve_seq_from_fasta.pl #用于自行建立其他物种的转录本
│ table_annovar.pl #注释程序,可一次性完成三种类型的注释
│ variants_reduction.pl #可用来更灵活地定制过滤注释流程
│
├─example #存放示例文件
│
└─humandb #人类注释数据库
1.0 下载基因组文件
通过wget或者其他手段,不再赘述;但是对于注释文件,ensembl中只有1.0和3.0版本,因此我们选择了NCBI。
基因组注释文件(GFF,GTF)下载的四种方法:https://zhuanlan.zhihu.com/p/79631226
绵羊4.0 相关文件下载网站 https://www.ncbi.nlm.nih.gov/assembly/GCA_000298735.2
不管使用什么平台,不管你要注释何种变异类型,用法都大致相似,有几个文件是不可或缺的,其一是基因组文件(fna或者fa文件),其二就是已有的注释信息文件(gff或者gtf文件),然后处理成软件需要的格式即可。关于各文件的信息解读,格式可以查阅NCBI等网络资料。
由于SNP calling、GWAS分析和选择信号扫描等我们所选用的基因组都是以Texel sheep组装的Oar_v4.0参考基因组,因此注释文件也需要针对该版本所作的对应注释文件。
#下载注释gtf文件
##(可选)如果没有gtf文件,可以下载gff文件,之后用cufflink软件包中的gffread软件将gff文件转化为gtf文件
##sudo apt install gffread #gffread用于转化GFF和GTF格式
##gffread -T /path/GCF_000298735.2_Oar_v4.0_genomic.gff -o /path/Sheep_ref.gtf
# 下载基因组序列文件 *.fa
#解压
gunzip /path/Sheep.gtf.gz
gunzip /path/Sheep.dna.genome.fa.gz
##ANNOVAR建库需要genePred文件,因而需要转换gff到genePred格式
### 下载安装 gtfToGenePred 工具
wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64.v369/gtfToGenePred
mkdir -p $PREFIX/bin
cp gtfToGenePred $PREFIX/bin
chmod +x $PREFIX/bin/gtfToGenePred
###以上下载怕麻烦推荐 #conda install gffread #conda install ucsc-gtftogenepred
# 用 gtfToGenePred 工具将 GTF转换 GenePred
gtfToGenePred -genePredExt /path/Sheep.gtf /path/Sheep_refGene.txt
# cp gtfToGenePred $PREFIX/bin
# 如果报错cp: cannot create regular file ‘/bin/gtfToGenePred’: Permission denied
# 更改为cp gtfToGenePred ~/$PREFIX/bin
####使用retrieve_seq_from_fasta.pl 转换为FASTA
perl /path/retrieve_seq_from_fasta.pl --format refGene --seqfile /path/Sheep.fna /path/Sheep_refGene.txt --out /path/Sheep_refGeneMrna.fa
# -format指定gene definition file格式
# -seqfile 指定基因组序列文件名称
# -outfile 指定输出mRNA序列文件的名称
以上,基于基因注释所需要的注释数据库文件已经准备完成(建库完成),获得两个重要的文件sheep_refGene.txt & SheeprefGeneMrna.fa,这里需要注意的是:关于文件的命名,_前缀就是下面build参数使用的名字,这里就是Sheep,下面注释就要使用“-build Sheep”这个参数,对于基于基因注释的txt文件命名就是refGene,连起来就是 Sheep_refGene.txt。而fa文件前缀一样,后面有稍稍差别为refGeneMrna,连起来就是Sheep_refGeneMrna.fa。
图片.png
2.0 VCF文件转换为annovar适用版本
关于转换过程中信息的保留等可查看官方文档:https://annovar.openbioinformatics.org/en/latest/user-guide/gene/
perl /path/convert2annovar.pl -format vcf4old /path/All_SNP.recode.vcf -outfile /path/Sheep.avinput
# 关于-format vcf4,我最初也是使用这个命令,但是并没有保留全部位点,查看日志文件才发现【2021.01】:
#WARNING to old ANNOVAR users: this program no longer does line-to-line conversion for multi-sample VCF files. If you want to include all variants in output, use '-format vcf4old' or use '-format vcf4 -allsample -withfreq' instead.
3.0 annotate_variation注释
perl /path/annotate_variation.pl -out /path/Sheep -buildver Sheep /path/Sheep.avinput /path/annovar/Sheepdb/
# -geneanno 表示使用基于基因的注释 一般是默认的
# -dbtype refGene 表示使用"refGene"类型的数据库
# -out /path/Sheep 表示输出以Sheep为前缀的结果文件
4.0 一些结果说明
https://www.jianshu.com/p/1e8db49a630c
Kai Wang, Mingyao Li, Hakon Hakonarson, ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data, Nucleic Acids Research, Volume 38, Issue 16, 1 September 2010, Page e164, https://doi.org/10.1093/nar/gkq603
cosmopolitan:ANNOVAR-注释软件用法详解
【原创文章】用ANNOVAR自建数据库注释辣椒高通量序列 - 百蔬君
网友评论