fastq文件随机取样问题(适于大数据)

作者: 想把生信学好的胡小慧 | 来源:发表于2020-10-10 22:54 被阅读0次

3M的reads是指3000000的read num

1G是指总的数据量

涉及到fastq文件(大约13个g)随机取样，看的文献用的seqkit，但我试了几次并没有取到3M的reads，输出的还是原来的文件，后来看了参数，seqkit的-n并不适用于大数据，数据太大就会输出全部的序列，然后我就在算覆盖度等问题，一直在找可替代软件或脚本，然后又尝试了seqtk(之前尝试过)并不是我想要的结果，特别奇怪，输入的是3M的reads，结果输出的只有一半，因为当时也快回来了，然后突然就想通了，我是双端测序，R1和R2加起来不就是3M的reads

看似简单，我却思考了两三个小时，算覆盖度，数据量，中间各种坑，走进了死胡同，还好要下班的时候走出来了，下午又在一直调试我新写的脚本，希望下周组装能提上日程

网友评论

本文标题：fastq文件随机取样问题(适于大数据)

本文链接：https://www.haomeiwen.com/subject/eqlspktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

fastq文件随机取样问题(适于大数据)

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读