美文网首页
SVPath:预测人类外显子结构变异致病性的准确pipeline

SVPath:预测人类外显子结构变异致病性的准确pipeline

作者: 高甜梅子酱 | 来源:发表于2022-03-10 17:36 被阅读0次

    文章地址:https://pubmed.ncbi.nlm.nih.gov/35180781/

    doi: 10.1093/bib/bbac014

    期刊:Briefings in Bioinformatics

    Title: SVPath: an accurate pipeline for predicting the pathogenicity of human exon structural variants

    摘要:虽然在每个个体的染色体中有大量的结构变异,但缺乏更准确的方法来确定临床致病变异。在这里,我们提出了SVPath,一种基于机器学习的方法来预测外显子中发生的缺失、插入和复制的结构变异的致病性。我们为ClinVar数据库中的每个结构变化事件构建了三种类型的注释特性。首先,我们将复杂的结构变异视为多个连续的单核苷酸多态性事件,并基于单个核酸替换对其进行相关评分注释,如对蛋白质功能的影响。其次,我们确定哪些基因发生了变异,并为每个结构变异构建基于基因的注释特征。第三,基于转录组计算相关特征,如组蛋白信号、变异重叠率和基因组元素定义等。最后,我们采用梯度推进决策树机器学习方法,并利用ClinVar数据库中的删除、插入和复制训练结构变异致病力预测模型SVPath。这些结构变异清楚地表明是致病的或良性的。实验结果表明,我们的SVPath实现了出色的预测性能,超过了现有的最先进的工具。SVPath在评估结构变异的临床致病性方面很有前景。SVPath可用于临床研究,预测未知致病性和新的结构变异的临床意义,以计算的方式探索疾病与结构变异之间的关系。

    关键词:单核苷酸多态性;临床致病性;外显子组;机器学习;结构变异

    SVPath:一个流程,用于预测人类外显子组的缺失、插入和复制结构变异的致病性(ref:hg19)

    流程下载链接:https://github.com/pengsl-lab/SVPath

    流程使用

    1.下载流程

    git clone https://github.com/pengsl-lab/SVPath.git
    

    2.数据准备

    (较小的文件已经包含在相应的目录中。 download.sh 提供了一种下载较大文件的方法,只需运行以下命令即可下载)

    sh download.sh #下载大文件的脚本
    sh split.sh path/to/reference.fa #分割大文件,该流程运行时都是逐行读取的,所以会耗费很多时间。因此,需要将这些大文件进行拆分以加快运行速度
    

    参考基因组下载链接(hg19):https://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/

    3.准备该流程需要的依赖环境

    SVPath 在 Linux 系统上运行,需要以下软件包:

    需要的python包

    • PyVCF 0.6.8
    • pyBigWig 0.3.18
    • numpy 1.19.5
    • pysam 0.15.4
    • scikit-learn 0.24.0
    • pandas 1.1.5
    • prettytable 2.4.0
    1. 运行SVPath
    ##1.预训练 Pre-training
    ####在训练save_models路径中的模型时提供特征数据,可以直接训练出这三种结构变异的致病性预测模型,例如:
    cd saved_models
    python training.py -i ./del_features.csv -o . -t DEL
    
    ##2.预处理 Pre-treatment
    ####SVPath 的输入是一个标准的 VCF 文件,这个文件只包含一个结构变体,即删除、插入或复制。例如 example/deletion.vcf。需要使用 ANNOVAR 变体注释工具对其进行注释,可参考:https://annovar.openbioinformatics.org/en/latest/ 或 https://github.com/WGLab/doc-ANNOVAR
    ./annovar/table_annovar.pl example/deletion.vcf annovar/humandb/ -buildver hg19 -out DEL -remove -protocol refGene -operation g -nastring . -vcfinput
    
    ##3.特征构造 Feature construction
    python src/generate_features_del.py -i DEL.hg19_multianno.vcf -o del_features.csv \
          -R reference/hg19.fasta -p 8 -g data/gene -d data/dbnsfp -m data/mcap -r data/revel -c data/cadd \
          -b data/bigwig/28736.Roadmap.SRS004212_Combined_Libraries_424.WGB-Seq.signal.bigWig \
             data/bigwig/E003-DNase.pval.signal.bigwig \
             data/bigwig/E003-H3K27ac.pval.signal.bigwig \
             data/bigwig/E003-H3K27me3.pval.signal.bigwig \
             data/bigwig/E003-H3K36me3.pval.signal.bigwig \
             data/bigwig/E003-H3K4me1.pval.signal.bigwig \
             data/bigwig/E003-H3K4me3.pval.signal.bigwig \
             data/bigwig/E003-H3K9me3.pval.signal.bigwig \
             data/bigwig/E003_WGBS_FractionalMethylation.bigwig \
             data/bigwig/ENCFF225MAO.bigWig \
             data/bigwig/GSM923451_hg19_wgEncodeUwRepliSeqGm12878WaveSignalRep1.bigWig \
             data/bigwig/hg19.100way.phyloP100way.bw \
          -l data/bed/gc19_pc.3utr.nr.bed \
             data/bed/gc19_pc.5utr.nr.bed \
             data/bed/data/gc19_pc.cds.nr.bed \
             data/bed/gc19_pc.prom.nr.bed \
             data/bed/gc19_pc.ss.nr.bed \
             data/bed/H1-ESC_Dixon2015-raw_TADs.bed \
             data/bed/sensitive.nc.bed \
             data/bed/ultra.conserved.hg19.bed \
             data/bed/wgEncodeBroadHmmGm12878HMM.Heterochrom.bed
    
    ####相关参数的含义可以通过python src/generate_features_del.py -h查看
    
    ##4.预测Predicting
    python src/predicting.py -i del_features.csv -m saved_models/DEL.pkl -o pred_results.csv
    

    相关文章

      网友评论

          本文标题:SVPath:预测人类外显子结构变异致病性的准确pipeline

          本文链接:https://www.haomeiwen.com/subject/rvxqdrtx.html