文章地址:https://pubmed.ncbi.nlm.nih.gov/35180781/
doi: 10.1093/bib/bbac014
期刊:Briefings in Bioinformatics
Title: SVPath: an accurate pipeline for predicting the pathogenicity of human exon structural variants
摘要:虽然在每个个体的染色体中有大量的结构变异,但缺乏更准确的方法来确定临床致病变异。在这里,我们提出了SVPath,一种基于机器学习的方法来预测外显子中发生的缺失、插入和复制的结构变异的致病性。我们为ClinVar数据库中的每个结构变化事件构建了三种类型的注释特性。首先,我们将复杂的结构变异视为多个连续的单核苷酸多态性事件,并基于单个核酸替换对其进行相关评分注释,如对蛋白质功能的影响。其次,我们确定哪些基因发生了变异,并为每个结构变异构建基于基因的注释特征。第三,基于转录组计算相关特征,如组蛋白信号、变异重叠率和基因组元素定义等。最后,我们采用梯度推进决策树机器学习方法,并利用ClinVar数据库中的删除、插入和复制训练结构变异致病力预测模型SVPath。这些结构变异清楚地表明是致病的或良性的。实验结果表明,我们的SVPath实现了出色的预测性能,超过了现有的最先进的工具。SVPath在评估结构变异的临床致病性方面很有前景。SVPath可用于临床研究,预测未知致病性和新的结构变异的临床意义,以计算的方式探索疾病与结构变异之间的关系。
关键词:单核苷酸多态性;临床致病性;外显子组;机器学习;结构变异
SVPath:一个流程,用于预测人类外显子组的缺失、插入和复制结构变异的致病性(ref:hg19)
流程下载链接:https://github.com/pengsl-lab/SVPath
流程使用
1.下载流程
git clone https://github.com/pengsl-lab/SVPath.git
2.数据准备
(较小的文件已经包含在相应的目录中。 download.sh 提供了一种下载较大文件的方法,只需运行以下命令即可下载)
sh download.sh #下载大文件的脚本
sh split.sh path/to/reference.fa #分割大文件,该流程运行时都是逐行读取的,所以会耗费很多时间。因此,需要将这些大文件进行拆分以加快运行速度
参考基因组下载链接(hg19):https://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/
3.准备该流程需要的依赖环境
SVPath 在 Linux 系统上运行,需要以下软件包:
- python 3.6
- bedtools (see https://bedtools.readthedocs.io/en/latest/content/installation.html)
需要的python包
- PyVCF 0.6.8
- pyBigWig 0.3.18
- numpy 1.19.5
- pysam 0.15.4
- scikit-learn 0.24.0
- pandas 1.1.5
- prettytable 2.4.0
- 运行SVPath
##1.预训练 Pre-training
####在训练save_models路径中的模型时提供特征数据,可以直接训练出这三种结构变异的致病性预测模型,例如:
cd saved_models
python training.py -i ./del_features.csv -o . -t DEL
##2.预处理 Pre-treatment
####SVPath 的输入是一个标准的 VCF 文件,这个文件只包含一个结构变体,即删除、插入或复制。例如 example/deletion.vcf。需要使用 ANNOVAR 变体注释工具对其进行注释,可参考:https://annovar.openbioinformatics.org/en/latest/ 或 https://github.com/WGLab/doc-ANNOVAR
./annovar/table_annovar.pl example/deletion.vcf annovar/humandb/ -buildver hg19 -out DEL -remove -protocol refGene -operation g -nastring . -vcfinput
##3.特征构造 Feature construction
python src/generate_features_del.py -i DEL.hg19_multianno.vcf -o del_features.csv \
-R reference/hg19.fasta -p 8 -g data/gene -d data/dbnsfp -m data/mcap -r data/revel -c data/cadd \
-b data/bigwig/28736.Roadmap.SRS004212_Combined_Libraries_424.WGB-Seq.signal.bigWig \
data/bigwig/E003-DNase.pval.signal.bigwig \
data/bigwig/E003-H3K27ac.pval.signal.bigwig \
data/bigwig/E003-H3K27me3.pval.signal.bigwig \
data/bigwig/E003-H3K36me3.pval.signal.bigwig \
data/bigwig/E003-H3K4me1.pval.signal.bigwig \
data/bigwig/E003-H3K4me3.pval.signal.bigwig \
data/bigwig/E003-H3K9me3.pval.signal.bigwig \
data/bigwig/E003_WGBS_FractionalMethylation.bigwig \
data/bigwig/ENCFF225MAO.bigWig \
data/bigwig/GSM923451_hg19_wgEncodeUwRepliSeqGm12878WaveSignalRep1.bigWig \
data/bigwig/hg19.100way.phyloP100way.bw \
-l data/bed/gc19_pc.3utr.nr.bed \
data/bed/gc19_pc.5utr.nr.bed \
data/bed/data/gc19_pc.cds.nr.bed \
data/bed/gc19_pc.prom.nr.bed \
data/bed/gc19_pc.ss.nr.bed \
data/bed/H1-ESC_Dixon2015-raw_TADs.bed \
data/bed/sensitive.nc.bed \
data/bed/ultra.conserved.hg19.bed \
data/bed/wgEncodeBroadHmmGm12878HMM.Heterochrom.bed
####相关参数的含义可以通过python src/generate_features_del.py -h查看
##4.预测Predicting
python src/predicting.py -i del_features.csv -m saved_models/DEL.pkl -o pred_results.csv
网友评论