美文网首页生信小白
生物信息百Jia软件(十一):svsim

生物信息百Jia软件(十一):svsim

作者: 基因学苑 | 来源:发表于2019-08-05 19:54 被阅读2次

    欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!

    基因学苑Q群:32798724

    模拟数据其实是非常重要的,通过模拟数据可以方便评估一款软件的准确性与敏感性。SV检测一直是基因组分析中最难的一个问题,一方面是因为目前测序读长过短,另一方面是因为SV类型多变,包括插入,缺失,易位,倒位,倍增等多种类型,通过svsim可以分别模拟每一种sv类型,然后可以利用wgsim对其进行模拟测序,之后可以用sv检测软件评估检测的效率。

    一、功能分类: 

    SV模拟软件

    二、软件官网:

    https://github.com/GregoryFaust/SVsim

    三、软件介绍:

    svsim的主要作用也是用于软件的评估。因为模拟的变异事先知道数量和具体位置,可以用来评估软件检测的效率,包括敏感性与特异性。因为实际数据中的SV并不清楚是真实存在的还是误差导致。svsim可以模拟出insertion, deletion, duplication, inversion 和translocation五种sv变化,sv的长度在50bp或者以上,这也正是我们对sv的定义长度。小于这个就是indel了。

    四、下载安装: 

    gitclonegit://github.com/GregoryFaust/SVsim.git

    cp SVsim/SVsim /usr/local/bin/

    五、软件使用: 

    选项    释义

    -i    输入文件,这个文件非常重要,里面列出SV的模式,后面我们会介绍如何书写这个文件。

    -r    基因组序列的索引,也是必须的,注意是索引文件,不是序列文件,序列文件也要在。

    -o    输出文件前缀

    下面几个选项只适用于全基因组模式

    -d    每个事件在明显的区域,可以加上试试,比较一下与不加-d的差别

    下面几个选项只适用于contig模式,主要都是用来控制contig模式时,如何输出结果。

    -c INT    在每个breakpoints事件前面取多长序列,默认是500

    -l    如果设置-l,表示在INC/INR/INS/INV 这些SV事件中,只保留左边断点和bedpe的条目

    -p INT    在每个事件后面取多长序列,默认也是500

    下面两个选项是通用的。

    -n INT    每一行发生重复时间的次数,默认是1,可以用来控制模拟SV的数目

    -s INT    设置一个随机数种子,保证可重复

    六、使用案例: 

    SVsim-icommands.sim-rgenome.fasta-ooutput

    七、注意事项:

    1、由于SV分成多种类型,因此配置文件不容易书写。

    相关文章

      网友评论

        本文标题:生物信息百Jia软件(十一):svsim

        本文链接:https://www.haomeiwen.com/subject/tlsvdctx.html