bam转fastq一直WARNING，并且两个fastq结果文件

作者: TOP生物信息 | 来源:发表于2019-03-24 14:05 被阅读0次

bam转fastq一直WARNING，并且两个fastq结果文件
bam2fastq(bam文件转fq/fastq)
为什么uBAM迟迟无法流行起来
NGS常用文件格式详解
转录组测序中的文件格式
hisat2的使用, samtools
Fastq BAM VCF
如何高效地从BAM文件中提取fastq
WDL-第5学
bcl2fastq 产生的多个lane 的fastq.gz 合并

下面这个报错信息较常见，但是如果每一条bam记录都是这样，就不常见了，我这两天遇到了这种情况。
先看看正常情况下是如何报错的：

WARNING: Query SRR3286802-24999 is marked as paired, but its mate does not occur next to it in your BAM file. Skipping.

之所以这样报错，是因为SRR3286802-24999的两条reads（/1, /2）只有一条reads比对成功了，而另一条reads没有比对成功，所以在bam文件中没有mate的记录。
而异常情况下，是每一条记录都这样报错：

bedtools bamtofastq -i SRR3286802.namesort.bam -fq PE1.fq -fq2 PE2.fq # bamtofastq要求先按照reads name排序

WARNING: Query SRR3286802-1-1 is marked as paired, but its mate does not occur next to it in your BAM file. Skipping.
WARNING: Query SRR3286802-1-2 is marked as paired, but its mate does not occur next to it in your BAM file. Skipping.

从这儿应该可以看出区别了，bam中reads的名称不一样，上面SRR3286802-24999去掉了原始fq中reads名称后缀(/1, /2)，而SRR3286802-1-1、SRR3286802-1-2在bam中都保留了后缀(-1, -2)。

那为什么都是比对，得到的bam文件有的去掉后缀，有的没有。原来啊，是软件可以自动识别以下的命名，在得到bam文件中，去掉后缀。

测序下机数据对fastq中reads的有规则的命名，如
@CL100072545L1C001R001_6/1
@CL100072545L1C001R001_6/2
@ST-J00123:99:HTYTJBBXX:4:1101:1763:1455 1:N:0:ATGTCA
@ST-J00123:99:HTYTJBBXX:4:1101:1763:1455 2:N:0:ATGTCA
及自定义的命名
@SRR3286802-1/1
@SRR3286802-1/2

而对于SRR3286802-1-1这类自定义的命名是不能自动去掉后缀的。换句话说，在bam中，PE1和PE2两条reads的名称应该是一样的。这一点也是自己做比对这么久没怎么留意的。

那从sra文件中解压fastq的时候，怎么定义fastq中reads的名称呢？额外加上

fastq-dump --defline-seq '@$ac-$si/$ri'

这个选项，之前 '@$ac-$si/$ri'这里没注意写的'@$ac-$si-$ri'，才引发了接下来的惨案（对于双端数据，cufflinks要求bam中read和mate的ID相同，不然影响结果，而trinity要求fastq中以/1 /2为reads后缀不然无法运行）。
不过话说回来，做双端数据的时候，用的是下机数据，做SRA数据的时候，用的是单端数据。所以以上bam转fastq一直WARNING的问题直到今天才遇到，这几天用双端数据学转录组才真正意识到这个问题的重要性。

网友评论

本文标题：bam转fastq一直WARNING，并且两个fastq结果文件

本文链接：https://www.haomeiwen.com/subject/egcuvqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

bam转fastq一直WARNING，并且两个fastq结果文件

相关文章