美文网首页『三代测序』
Sniffles:长读长数据SV检测

Sniffles:长读长数据SV检测

作者: 浩渺予怀 | 来源:发表于2019-04-18 08:51 被阅读584次

                                    Sniffles使用简介


    介绍:

            Sniffles用于检测长读长数据的SV。主要为Pacbio数据而设计,但对于Oxford Nanopore数据也是可以的。SV是基因组上的大片段事件(例如,deletion,duplication,insertion,inversion and translocation)。Sniffles能检测这些类型也能检测巢式SV(例如,inversion周围存在deletion或invert duplication)。

    下载:

        https://github.com/fritzsedlazeck/Sniffles/releases

    安装:

    wget https://github.com/fritzsedlazeck/Sniffles/archive/master.tar.gz -O Sniffles.tar.gz

        tar xzvf Sniffles.tar.gz

        cd Sniffles-master/

        mkdir -p build/

        cd  build/

        # 可下载编译好的cmake进行软件的编译

        cmake ..

        make

    快速使用:

        ./sniffles -m mapped.sort.bam -v output.vcf

        -m    排序后的BAM文件

    -v     输出vcf文件

    群call(population SV calling)

    以下介绍如何使用Sniffles和SURVIVOR获取多样本VCF文件

    (1)获取各个样本的VCF

    首先使用sniffles对各个样本进行SV的鉴定:

        sniffles -m my_sample.bam -v my_sample.vcf

    (2)合并多个样本的VCF

    首先,获取SURVIVOR软件,下载:https://github.com/fritzsedlazeck/SURVIVOR

    使用说明:https://github.com/fritzsedlazeck/SURVIVOR/wiki

    a. 合并文件前需要进行排序

    b. 将所有VCF文件的路径放入一个文件,例如:

        ls *sample.vcf > vcf_files_raw_calls.txt

    c. 使用SURVIVOR将这些文件进行合并,生成一个VCF文件:

        SURVIVOR merge vcf_files_raw_calls.txt 1000 1 1 -1 -1 -1merged_SURVIVOR_1kbpdist_typesave.vcf

    该步骤生成了共有的SV事件,但是没有保留各个样本特有的SV信息。

    (3)强制检测所有样本的SVs

    基于全部样本再次运行sniffles,例如:

    sniffles -m my_sample.bam -v my_sample_gt.vcf --Ivcfmerged_SURVIVOR_1kbpdist_typesave.vcf

    当各个样本完成运行后,再次合并VCF文件,同样将上述VCF文件路径写入到一个文件,例如:

    ls *sample_gt.vcf > vcf_files_gt_calls.txt

    然后运行SURVIVOR:

    SURVIVOR merge vcf_files_gt_calls.txt 1000 -1 1 -1 -1 -1 merged_gt_SURVIVOR_1kbpdist_typesave.vcf

    (The -1 for the minimum SV caller is necessary to obtain all calls even if they might be 0/0 in all samples.)

    参考文献:

    [1] Accurate and fast detection of complex and nested structural variations using long read technologies. Biological Data Science, Cold Spring Harbor Laboratory, Cold Spring Harbor, NY, 26 - 29.10.2016.

    [2] NGMLR: Highly accurate read mapping of third generation sequencing reads for improved structural variation analysis. Genome Informatics 2016, Wellcome Genome Campus Conference Centre, Hinxton, Cambridge, UK, 19.09.-2.09.2016.

    [3] Transient structural variations have strong effects on quantitative traits and reproductive isolation in fission yeast. Nature communications, Vol. 8, 14061, 24.01.2017, p. 1-11. DOI:10.1038/NCOMMS14061.

    [4] Accurate detection of complex structural variations using single-molecule sequencing. Nature Methodsvolume 15, pages461–468 (2018).


    相关文章

      网友评论

        本文标题:Sniffles:长读长数据SV检测

        本文链接:https://www.haomeiwen.com/subject/ewwawqtx.html