在GEO或者SRA上下载数据时候,我们往往需要区分单双端数据
每一个GSM号代表一个生物学重复的样本(该例子为GSM1664614)
layout若是标注了paired,则代表该样本是双端测序,如果标注了single则代表单端数据。下面的SRR号代表是仅有一个run的文件
也有的情况是这样的
该GSM下有两个SRR的run文件,这代表2个copy,也有的会有3个SRR的run文件,代表3个copy,多出来的SRR的run文件可能是因为后面作者对该GSM建立的文库加测数据,每加测一次会单独保存在一个SRR的run文件里面
当我们不好区分单双端的时候,我们可以用:
fastq-dump --split-3 SRR13161772.sra
来区分,如果是单端则只会拆分出一个fq文件,如果是双端则会拆分出了两个fq文件
网友评论