美文网首页生信小白
生物信息百Jia软件(四):wgsim

生物信息百Jia软件(四):wgsim

作者: 基因学苑 | 来源:发表于2019-08-01 14:19 被阅读7次

    编者按

    欢迎订阅微信公众号:基因学苑,更多精彩内容等你发掘!

    前面写了专题《手把手教你生物信息分析平台搭建》,然后又介绍了很多《生物神奇网站》资源,也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备,就开始学习生物信息吧。所以,我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢?可以是百佳,也可以是百家,还可以是百加。从100家中选择100款优秀软件,掌握这些软件,就可以扩展出更多内容,这就是百Jia。

    一、功能分类: 

    测序数据模拟

    二、软件官网:

    https://github.com/lh3/wgsim

    三、软件介绍:

    wgsim是一块用于高通量数据模拟的软件,whole genome simulation。这款软件可以模拟出illumina测序数据,并且可以自由调整测序reads的读长,插入片段大小以及错误率等,使用起来比较方便。模拟数据主要用于软件的测试与评估。例如对序列拼接软件的评估。因为模拟数据是根据已有的参考序列来的,我们可以将模拟出来的数据进行拼接,再将拼接的结果与原序列进行比对。这样就能每次调整单因素变量,例如比较不同reads读长,不同插入片段大小或者不同错误率条件下,对序列拼接的影响。

    也可以为参考序列模拟变异位点,例如点突变、片段获得缺失等,然后模拟数据,评估软件是否可以检测出这些变异位点。

    这个过程中,模拟出可控条件的数据是非常重要的。

    但是,这里面我们也要认识到,实际测序中影响的因素是非常多的,模拟数据是很难和实际数据相匹配的,比如拼接软件对模拟数据表现出非常好的效果,但是对实际测序数据可能非常差。

    四、下载安装: 

    gitclone  https://github.com/lh3/wgsim.git

    gcc -g -O2 -Wall -o wgsim wgsim.c -lz -lm

    五、软件使用: 

    软件比较简单,输入文件为基因组序列,fasta格式,输出为illumina的fastq格式,这些格式我们在前面都介绍过。然后是一些选项。

    -e 是错误率,默认是0.02

    -d reads两头的距离,也就是插入片段长度,默认250bp,注意插入片段本身是包含reads长度的,而不是reads之间的距离

    -s 是-d插入片段的偏差,默认是20,也就是-d的值加减20,我们知道插入片段长度并不是固定的,而是一个范围

    -N 是测序的层数,控制输出数据量

    -1 是reads1长度,默认70bp

    -2 是reads2长度,默认70bp

    -r 突变率

    -R -X 都是调整indels的

    -h 是单倍体模式

    下面我们来运行一下

    wgsim 参考序列 reads1 reads2 这里插入片段我们选择500bp,偏差-s在50,reads长度-1 -2为100bp,二者可以不一样,其余默认。

    六、使用案例: 

    wgsimref.fnareads1.fqreads2.fq-d500-s50-190-290

    七、注意事项:

    1、模拟出的reads质量值是无法更改的,都是“I”,如果程序用到reads的质量值模拟数据就会有问题。

    2、不支持Mate-pair文库,就是即使把-d设置微6K,那么它是不能像实际过程中发生环化的,两条reads的方向和小片段还是一样的。

    相关文章

      网友评论

        本文标题:生物信息百Jia软件(四):wgsim

        本文链接:https://www.haomeiwen.com/subject/wibqdctx.html