基因组结构变异(structure variant, SV)是基因组变异的重要组成部分,大片段插入(Insertion, INS)、缺失(Deletion, DEL)、倒位(Inversion, INV)、易位(Translocation)、重复(Duplication, DUP)等类型的变异。第三代基因组测序因其读长较长,可轻松跨越重复区域和基因组复杂区域,能够更全面的检测基因组的SV。结构变异往往会对基因结构和表达产生更大的影响,在遗传病和肿瘤的发生发展中扮演了重要角色,因此发现和正确注释结构变异对于疾病的诊断有着至关重要的意义。
AnnotSV就是这样一个专门用于人类和小鼠结构变异注释和评级的软件工具。它可以把鉴定出的结构变异与各种已知的功能基因组数据库进行比对,给出丰富的注释信息,其中包括 (1):
基因注释:使用refSeq或者Ensembl基因数据库注释结构变异重叠的已知基因。
调控元件注释:报告结构变异影响的启动子、增强子等调控元件,如GeneHancer、EnhancerAtlas。
基因相关注释:包含了致病性和表型数据库的信息,如OMIM、ClinGen、ExAC、ClinVar等数据库。
已知致病基因和位点注释:报告与结构变异完全或部分重叠的已知致病基因和区域。
已知良性基因和位点注释:报告与结构变异完全或部分重叠的已知良性基因和区域。
断点注释: 给出断点周围的GC含量、重复序列、ENCODE blacklist等注释。
AnnotSV还集成了一个结构变异致病性评级系统,参考ACMG标准给出1-5级的评分,可以帮助遗传学家和临床医生评估遗传变异的临床意义,快速定位最有可能致病的结构变异,帮助他们做出更准确的诊断和治疗决策。
ACMG,全称为American College of Medical Genetics and Genomics美国医学遗传学与基因组学学会。它将遗传变异分为五类:致病性(Pathogenic)、可能致病性(Likely Pathogenic)、不确定性临床意义(Uncertain Significance)、可能良性(Likely Benign)和良性(Benign)。每种分类都有相应的标准和证据,以帮助临床医生和遗传学家对遗传变异进行评估和解释(2)。
AnnotSV支持.vcf
和.bed
作为输入,可以非常方便地集成到各种分析流程中。输出也非常灵活,有TSV、VCF和HTML报告等多种格式。如果你需要可视化分析,可以使用AnnotSV的前端工具knotAnnotSV,非常好用。
一、AnnotSV软件安装
网站主页:https://lbgi.fr/AnnotSV/
github主页:https://github.com/lgmgeo/AnnotSV
从github上下载AnnotSV-3.3.7.tar.gz
:
$ cd /path/to/install/annotsv/annotations
$ mkdir AnnotSV_annotations
$ cd AnnotSV_annotations
$ tar -xzvf AnnotSV-3.3.7.tar.gz
$ cd AnnotSV-3.3.7
$ make PREFIX=. install
$ make PREFIX=. install-human-annotation #下载人类注释数据库,大约2126M
#将AnnotSV加入环境变量
$ echo "PATH=/mnt/data/home/mli/Desktop/AnnotSV_annotations/AnnotSV-3.3.7/bin:$PATH" >> ~/.bashrc && source ~/.bashrc
#如果报错Cargo, the Rust package manager, is not installed or is not on PATH, 则需要安装Rust and Cargo , https://rustup.rs/
$ curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
# 如果Could not build wheels for polars, which is required to install pyproject.toml-based projects
$ apt install libcairo2-dev pkg-config python3-dev
#如果没有安装bedtools,还需要安装bedtools
$ conda install -c bioconda bedtools
#如果没有安装bcftools,还需要安装bcftools
$ conda install -c bioconda bcftools
安装AnnotSV(图1):
图1. AnnotSV安装过程
下载解压人类结构变异注释数据库(图2):
图2. 人类结构变异数据库下载解压过程
二、AnnotSV软件使用
$ AnnotSV -SVinputFile HG.SV.vcf -outputFile AnnotSV.tsv
#不需要再次指定 -annotationsDir ,安装时应该已经指定默认路径了
如果不指定路径,则自动在当前路径下生成名为20231208_AnnotSV
的文件夹,里面有两个.tsv
文件:AnnotSV.tsv
和 AnnotSV.unannotated.tsv
, 一个是数据库注释的结构变异,一个是现有数据库未注释到的。
AnnotSV有以下的数据库进行注释(图3):
图3. AnnotSV注释使用的数据库
三、AnnotSV网页版使用
如果不愿使用服务器版本,也可以直接使用网页版对结构变异文件进行注释 (图4)。
网页版:https://lbgi.fr/AnnotSV/runjob
图4. AnnotSV网页版界面上传.vcf
文件,按照需求设置参数,点击submit提交即可。注释需要一定时间,记住runjob ID,过一段时间即可下载注释好的文件了。注释文件可以在官网上进行可视化。
参考文献:
网友评论