美文网首页
fastq文件随机取样问题(适于大数据)

fastq文件随机取样问题(适于大数据)

作者: 想把生信学好的胡小慧 | 来源:发表于2020-10-10 22:54 被阅读0次

    3M的reads是指3000000的read num

    1G是指总的数据量

    涉及到fastq文件(大约13个g)随机取样,看的文献用的seqkit,但我试了几次并没有取到3M的reads,输出的还是原来的文件,后来看了参数,seqkit的-n并不适用于大数据,数据太大就会输出全部的序列,然后我就在算覆盖度等问题,一直在找可替代软件或脚本,然后又尝试了seqtk(之前尝试过)并不是我想要的结果,特别奇怪,输入的是3M的reads,结果输出的只有一半,因为当时也快回来了,然后突然就想通了,我是双端测序,R1和R2加起来不就是3M的reads


    看似简单,我却思考了两三个小时,算覆盖度,数据量,中间各种坑,走进了死胡同,还好要下班的时候走出来了,下午又在一直调试我新写的脚本,希望下周组装能提上日程

    相关文章

      网友评论

          本文标题:fastq文件随机取样问题(适于大数据)

          本文链接:https://www.haomeiwen.com/subject/eqlspktx.html