ANNOVAR-注释数据库

作者: DaWang | 来源:发表于2021-11-21 16:39 被阅读0次

    1.下载

    1.需要科研机构邮箱才能申请安装包(免费)
    http://download.openbioinformatics.org/annovar_download_form.php
    下载annovara安装的数据库列表

    #下载hg38版本的list
    perl annotate_variation.pl -downdb avdblist -buildver hg38 -webfrom annovar path/to/humandb
    

    里面是可以通过annovar直接下载的数据库

    2.数据库下载

    #refGene
    perl ../annotate_variation.pl -downdb -buildver hg38 -webfrom annovar refGene ../humandb
    #knownGene
    perl ../annotate_variation.pl -downdb -buildver hg38 -webfrom annovar knownGene ../humandb
    #esp6500siv2_all(only all)
    perl ../annotate_variation.pl -downdb esp6500siv2_all -buildver hg38 -webfrom annovar ../humandb
    #exac03
    perl ../annotate_variation.pl -downdb exac03 -build hg38 -webfrom annovar ../humandb
    #cosmic70
    perl ../annotate_variation.pl -downdb cosmic70 -buildver hg38 -webfrom annovar ../humandb
    #nci60
    perl ../annotate_variation.pl -downdb nci60 -buildver hg38 -webfrom annovar ../humandb
    #dgvMerged
    perl ../annotate_variation.pl -downdb dgvMerged -buildver hg38 ../humandb
    
    #avSNP
    perl ../annotate_variation.pl -downdb avsnp144 -buildver hg38 -webfrom annovar ../humandb
    #1000g2015aug
    perl ../annotate_variation.pl -downdb 1000g2015aug -buildver hg38 -webfrom annovar ../humandb
    
    #dbnsfp30a(SIFT, PolyPhen2, LRT, MutationTaster, MutationAssesor, FATHMM; GERP++, PhyloP, SiPhy)
    perl ../annotate_variation.pl -downdb dbnsfp30a -buildver hg38 -webfrom annovar ../humandb
    
    #clinvar_20160302
    perl ../annotate_variation.pl -downdb clinvar_20160302 -build hg38 -webfrom annovar ../humandb
    
    #dann
    perl ../annotate_variation.pl -downdb dann -buildver hg38 -webfrom annovar ../humandb
    

    处理精简一些数据库

    awk -F "\t" '{print $1"\t"$3"\t"$5"\t"$6"\t0\t"$2}' humandb/hg38_wgEncodeGencodeBasicV23.txt >humandb/hg38_Gencode.txt
    awk -F "\t" '{print $1"\t"$3"\t"$5"\t"$6"\t0\t"$13}' humandb/hg38_refGene.txt >humandb/hg38_refGeneName.txt
    

    从UCSC下载
    http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

    wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/wgEncodeGencodeBasicV23.txt.gz
    wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/cytoBand.txt.gz
    wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/wgRna.txt.gz
    wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/genomicSuperDups.txt.gz
    wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/gwasCatalog.txt.gz
    wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/rmsk.txt.gz
    wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/dgvMerged.txt.gz
    wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/cpgIslandExt.txt.gz
    
    #OMIM
    wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/omimAv.txt.gz
    wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/omim2gene.txt.gz
    

    3.注释脚本

    -protocol: 注释的数据库
    -buildver: 基因组版本
    -nastring:空位置用 . 填充
    --otherinfo: 输入文件中第5例后面的info信息也进行输出
    --operation:数据库的类型,需要与前面的-protocol顺序严格对应,且逗号分割。g为基因注释类型 ,r为区域注释类型,f为过滤注释类型
    --gff3dbfile:注释使用的 gff 文件
    –vcfinput:输入为vcf格式的文件,输出也为vcf格式
    –vcfformat:vcf文件的格式

    perl table_annovar.pl input.vcf path/to/humandb -buildver hg38 -otherinfo -nastring . -protocol GeneName,refGene,Gencode,cytoBand,wgRna,genomicSuperDups,gff3,avsnp150,cosmic70,clinvar_20180603,gwasCatalog,1000g2015aug_eas,1000g2015aug_sas,1000g2015aug_eur,1000g2015aug_afr,1000g2015aug_amr,1000g2015aug_all,esp6500siv2_all,exac03,dbnsfp33aneed,gerp++gt2,caddgt10 --operation r,g,r,r,r,r,r,f,f,f,r,f,f,f,f,f,f,f,f,f,f,f --gff3dbfile hg38_rmsk.gff --vcfinput --argument '--colsWanted 5,--transcript_function,--colsWanted 5,,,,,,,,,,,,,,,,,,,' --outfile out_put_annovar_file
    

    4.Annoovar注释的3种形式

    1.Gene-based Annotation(基于基因的注释)
    基于基因的注释(gene-based annotation)揭示variant与已知基因直接的关系以及对其产生的功能性影响,需要使用for gene-based的数据库。
    2.Region-based Annotation(基于区域的注释)
    对位于数据库区域的位点进行注释,不关注具体的位点是否一致,变异是否一致。揭示位点与基因组特定区域的关系,例如:它是否落在已知的保守基因组区域。
    3.Filter-based Annotation(基于过滤的注释)
    这种注释方式需要变异位点的位置以及碱基变化精确匹配
    注释脚本

    perl /Apps/annovar/convert2annovar.pl -includeinfo -allsample -withfreq -format vcf4 raw.somatic.foxog_filtered.vcf > raw.somatic_converted_avinput.xls
    perl /Apps/annovar/table_annovar.pl raw.somatic_converted_avinput.xls .//annovar/humandb -buildver hg19 -otherinfo -remove -outfile outdir -protocol refGene,snp142,popfreq_all_20150413,gnomad_exome,cosmic88,clinvar_20190821,ljb26_all,intervar_20170202 -operation g,f,f,f,f,f,f,f -argument -hgvs,-hgvs,-hgvs,-hgvs,-hgvs,-hgvs,-hgvs,-hgvs
    

    splicing剪接位点:指DNA在转录时发生RNA拼接的位点。
    在vcf中 在splicing位点附件发生的突变,所处区域显示为 splicing,表示这个突变位点在一个splicing附近。 在碱基变化列 c.894-1G>A表示 在转录本894位置是一个剪接位点,在 -1 位置上,也就是893位置发生了G>A突变。

    如果想扩大剪接位点两侧突变检测范围 , 在-argument 参数后边对应 refGene数据库的位置 添加-splicing_threshold 10 , 如:-argument '-splicing_threshold 10 -hgvs' 引号内表示对refGene 数据库进行 -splicing_threshold 10-hgvs 两个处理,所以用引号引起来。

    相关文章

      网友评论

        本文标题:ANNOVAR-注释数据库

        本文链接:https://www.haomeiwen.com/subject/gtfzsltx.html