美文网首页
MutScan软件介绍

MutScan软件介绍

作者: 京古 | 来源:发表于2020-01-07 09:40 被阅读0次

    近期在分析人的一种眼科疾病的WES数据时,发现RPGR基因的第15号外显子的一部分在高度重复区域,该区域是高含量的CT重复,因此前期的文库捕获、后期比对都比较困难。好在我的样本在这个区域的覆盖度还可以,但是常规的流程没有检测出来这个区域的可靠变异,因此需要验证这个区间是否还有漏掉的位点。发现MutScan软件可以基于输入的位点进行验证,从fastq序列入手,不经过bwa比对,而是进行字符串匹配(当然会考虑到容错),找出来一些位点。

    1.软件的情况如下:

    1.1 源代码网址:

    http://www.github.com/OpenGene/MutScan

    1.2 下载二进制文件后直接使用:

    wget http://opengene.org/MutScan/mutscan
    chmod a+x ./mutscan
    

    或者下载可编译文件:

    # get source (you can also use browser to download from master or releases)
    git clone https://github.com/OpenGene/MutScan.git
    
    # build
    cd mutscan
    make
    
    # Install
    sudo make install
    

    1.3 软件功能:

    直接扫描FastQ文件检测和可视化目标突变

    1.4 软件特性

    • 超敏感,保证所有支持突变的读取都将被检测到
    • 可以比普通管道快 50 X+ ( 例如。 BWA + Samtools + GATK/VarScan/Mutect).
    • 非常容易使用,无需其他任何东西。 没有校准没有参考基因组没有变异电话没有。
    • 包含在癌症相关突变突变点,如 EGFR p.L858R, BRAF p.V600E.。
    • 美观且信息丰富的HTML报表,具有信息pileup可视化。
    • 多线程支持。
    • 支持单端和双端数据。
    • 对于对端数据,MutScan将尝试合并每对,并进行质量调整和错误纠正。
    • 能够扫描一个,文件中的突变,可以用来可以视化被称为变量的变异。
    • 可以用于筛选假阳性突变。 换句话说,MutScan可以处理高度repetive序列以避免 false INDEL调用。
    应用程序方案:
    • 你对某些特定的( 比如drugable突变) 类型感兴趣,并希望检查给定的FastQ文件是否包含它们。
    • 你对管道调用的突变没有足够的信心,因此你希望可视化并验证它们以避免 false 正调用。
    • 你担心管道使用过于严格的筛选,并且可能会导致某些 false 负数,因这里你要快速检查。
    • 你想看到所谓的变异,并用它清晰的pipeUp信息拍摄一个截图。
    • 你称为大量INDEL突变,并且担心它们主要是 false 优点( 特别是在高度repetive区域)。
    • 你想验证并可视化你的管道调用的VCF中的每个记录。

    1.5 Windows 版本( 可能不是最新版本)

    如果要在 Windows 上编译 MutScan,则应使用 cygwin。 我们已经用 cygwin-2.6.0/G++ 5.4构建了一个,它可以从以下位置下载: http://opengene.org/MutScan/windows_mutscan.zip

    1.6 HTML报告

    • 将生成一个HTML报告,并将它的写入给给定的文件名。 有关示例,请参阅 http://opengene.org/MutScan/report.html
    • 如果在Linux服务器中运行命令并希望在本地系统上查看HTML报告,那么 记住要复制所有 xxxx.htmlxxxx.html.files 并将它们保存在同一文件夹中,然后单击 xxxx.html 在浏览器中查看它。
    • 默认文件 NAME 是 mutscan.html,并且还会生成一个文件夹 mutscan.html.files
    • 默认情况下,将为每个发现的突变生成一个 indivudal HTML文件。 但是你可以指定 -s 或者 --standalone 来包含单个HTML文件中的所有突变。 如果扫描太多记录( 例如扫描 VCF ),请注意这个模式,它将给你一个非常大的HTML文件,并且不能加载。
    • 下面是MutScan生成的突变( EGFR p.t790m ) pileup的屏幕截图:


      image.png
    • 上面 p.T790M 突变的pileup。 EGFR p.T790M 是肺癌中非常重要的drugable突变。
    • 每个基础的颜色表示它的质量,并且在鼠标超过时显示质量。
    • 第一列,d 表示 MATCH的编辑距离,--> 表示转发,<--表示反向

    1.7 JSON报告

    默认情况下禁用JSON报告。 你可以通过使用 -j 或者 --json 指定一个JSON文件 NAME 来启用它。 JSON报告如下所示:

    {
     "command":"./mutscan -1/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R1_001.fastq -2/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R2_001.fastq -h z.html -j z.json -v --simplified=off ",
     "version":"1.14.0",
     "time":"2018-05-15 15:48:21",
     "mutations":{
     "NRAS-neg-1-115258747-2-c.35G>C-p.G12A-COSM565":{
     "chr":"chr1",
     "ref":["TGGATTGTCAGTGCGCTTTTCCCAACACCA","G","CTGCTCCAACCACCACCAGTTTGTACTCAG"],
     "reads":[
     {
     "breaks":[31,61,62,76], 
     "seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
     "qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieiiiiiiiiiiieieeeee" },
     {
     "breaks":[31,61,62,76], 
     "seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
     "qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieeeee" }
     ]
     },
     "PIK3CA-pos-3-178936082-9-c.1624G>A-E542K-COSM760":{
     "chr":"chr3",
     "ref":["AAAGCAATTTCTACACGAGATCCTCTCTCT","A","AAATCACTGAGCAGGAGAAAGATTTTCTAT"],
     "reads":[
     {
     "breaks":[22,52,53,83], 
     "seq":"GGAAAATGACAAAGAACAGCTCAAAGCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGAGCAGGAGAAAGATTTTCCAAAGATGTTTCTCAGAACGCTGCAGTCTGCAATTTGTATGAATTCCC",
     "qual":"eeeeeiiiQiiiiiieiiiieiSeiiiiiie`iiii`i`iiiiiiiiiiiiii`iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiaiiiiiiiiiiiiiiiiiieiiiiiieeeee" },
     {
     "breaks":[0,27,28,58], 
     "seq":"GCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGCGCAGGAGAAAGATTTTCTATGGACCACAGGTAAGTGCTAAAATGGAGATTCTCTGTTTCTTTTTCTTTATTACAGAAAAAATAACTGACTTTGGCTGATCTCAGCATGTTTTTACCATACC",
     "qual":"AAAAAEEEEiieiiieiiiiiiiiiieiiiiiiiie``iiiiiieiiiiiiiiiieiiiieiieieeiiiSiiiiiieiiiiiiiiiiiiiieiiiiiSiiiiiiiiiiiiieiiiiiiiiiiii`ieiiieiii`ieiiiii`eS``eieEEEAAAAA" }
     ]
     }
     }
    }
    

    1.8 软件选项

    usage: mutscan -1 <read1_file> -2 <read2_file> [options]...
    options:
     -1, --read1 read1 file name, required
     -2, --read2 read2 file name
     -m, --mutation mutation file name, can be a CSV format or a VCF format
     -r, --ref reference fasta file name (only needed when mutation file is a VCF)
     -h, --html filename of html report, default is mutscan.html in work directory
     -j, --json filename of JSON report, default is no JSON report (string [=])
     -t, --thread worker thread number, default is 4
     -S, --support min read support required to report a mutation, default is 2.
     -k, --mark when mutation file is a vcf file, --mark means only process the records with FILTER column is M
     -l, --legacy use legacy mode, usually much slower but may be able to find a little more reads in certain case -s, --standalone output standalone HTML report with single file. Don't use this option when scanning too many target mutations (i.e.> 1000 mutations) -n, --no-original-reads dont output original reads in HTML and text output. Will make HTML report files a bit smaller -?, --help print this message
    

    1.9 示例

    纯文本结果,其中包含检测到的突变和它们的支持读取,将直接打印。 你可以使用 > 将输出重定向到文件,例如:

    mutscan -1 <read1_file_name> -2 <read2_file_name > result.txt
    

    MutScan生成非常有用的HTML文件报告,默认为工作目录中的mutscan.html。 你可以使用 -h 参数更改文件 NAME,例如:

    mutscan -1 <read1_file_name> -2 <read2_file_name> -h report.html
    

    对于单端排序数据,省略 -2 参数:

    mutscan -1 <read1_file_name>
    

    多线程

    -t 参数指定要启动的工作线程数。 默认的线程号是 4。 建议使用比系统的CPU内核少的数字。

    变异文件

    • -m 指定的变异文件可以是 CSV file,也可以是 VCF file
    • 如果没有指定 -m,MutScan将使用内置的默认变异文件,其中包含 60个相关的癌症相关突变点。
    • 如果提供了 CSV,则不需要参考基因组程序集。
    • 如果提供 VCF,应提供相应的参考基因组程序集( 例如 )。 ucsc.hg19. fasta ),并且不应该被压缩。

    格式的csv格式变异文件

    带有 name,left_seq_of_mutation_point,mutation_seq,right_seq_of_mutation_point 和 chromosome(optional) 列的CSV文件:

    #name, left_seq_of_mutation_point, mutation_seq, right_seq_of_mutation_point, chromosome
    
    NRAS-neg-1-115258748-2-c.34G>A-p.G12S-COSM563, GGATTGTCAGTGCGCTTTTCCCAACACCAC, T, TGCTCCAACCACCACCAGTTTGTACTCAGT, chr1
    
    NRAS-neg-1-115252203-2-c.437C>T-p.A146V-COSM4170228, TGAAAGCTGTACCATACCTGTCTGGTCTTG, A, CTGAGGTTTCAATGAATGGAATCCCGTAAC, chr1
    
    BRAF-neg-7-140453136-15-c.1799T>A -V600E-COSM476, AACTGATGGGACCCACTCCATCGAGATTTC, T, CTGTAGCTAGACCAAAATCACCTATTTTTA, chr7
    
    EGFR-pos-7-55241677-18-c.2125G>A-p.E709K-COSM12988, CCCAACCAAGCTCTCTTGAGGATCTTGAAG, A, AAACTGAATTCAAAAAGATCAAAGTGCTGG, chr7
    
    EGFR-pos-7-55241707-18-c.2155G>A-p.G719S-COSM6252, GAAACTGAATTCAAAAAGATCAAAGTGCTG, A, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7
    
    EGFR-pos-7-55241707-18-c.2155G>T-p.G719C-COSM6253, GAAACTGAATTCAAAAAGATCAAAGTGCTG, T, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7
    

    testdata/mutations.csv 给出了csv格式变异文件的示例

    vcf格式变异文件

    标准VCF可以作为一个变异文件,文件扩展名为 .vcf 或者 .vcf。 如果突变文件是VCF文件,你应该通过 -r <ref.fa> 指定 reference assembly file。 例如命令可以是:

    mutscan -1 R1.fq -2 R2.fq -m target.vcf -r hg19.fa
    

    使用 bam/fill

    如果希望使用 bam/fill文件运行 MutScan,可以使用 samtools 将它们转换为FASTQ文件,使用 samtools fastq 命令,最新版本的samtools fastq 数据支持 paired。

    注释

    • 如果你读得太短,MutScan 需要至少 50个长读,不要使用它
    • 如果你希望只使用一个读取支持来提取突变,请在命令中添加 -S 1 或者 --support=1

    2. 一些说明:

    (1)相关的网站:
    https://github.com/OpenGene/MutScan#get-mutscan

    https://www.biostars.org/p/213988/

    https://www.biostars.org/p/283969/#283980

    https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2024-6

    (2)关于indel模式,创建vcf时的格式:
    如果变异类型是insertion,则直接把变异后的序列作为M序列,如下图中的红色框内:


    image.png

    对于deletion类型:


    (3)该软件更像是验证变异位点,不是call 变异,是需要把已知的位点先填入的。

    相关文章

      网友评论

          本文标题:MutScan软件介绍

          本文链接:https://www.haomeiwen.com/subject/juxractx.html