美文网首页科研信息学
再次说明md5检查文件完整度的重要性

再次说明md5检查文件完整度的重要性

作者: 因地制宜的生信达人 | 来源:发表于2019-08-05 00:54 被阅读33次

    再次说明md5检查文件完整度的重要性

    最近服务器停电,发现几个星期前提交的项目失败了几个样本:

    P5_DCIS 
    P2_Norm 
    P4_DCIS 
    P2_DCIS
    P9_DCIS 
    P10_Norm
    P9_Norm
    

    所以我就去检查 clean 数据

    gunzip -t P10_Norm_Exome_1_val_1.fq.gz
    gunzip -t P10_Norm_Exome_2_val_2.fq.gz
    gunzip -t P2_DCIS_Exome_1_val_1.fq.gz
    gunzip -t P2_DCIS_Exome_2_val_2.fq.gz
    gunzip -t P2_Norm_Exome_1_val_1.fq.gz
    gunzip -t P2_Norm_Exome_2_val_2.fq.gz
    gunzip -t P4_DCIS_Exome_1_val_1.fq.gz
    gunzip -t P4_DCIS_Exome_2_val_2.fq.gz
    gunzip -t P5_DCIS_Exome_1_val_1.fq.gz
    gunzip -t P5_DCIS_Exome_2_val_2.fq.gz
    gunzip -t P9_DCIS_Exome_1_val_1.fq.gz
    gunzip -t P9_DCIS_Exome_2_val_2.fq.gz
    gunzip -t P9_Norm_Exome_1_val_1.fq.gz
    gunzip -t P9_Norm_Exome_2_val_2.fq.gz
    

    发现的确是clean数据有问题,如下:

    gzip: P10_Norm_Exome_2_val_2.fq.gz: invalid compressed data--format violated
    gzip: P1_DCIS_Exome_1_val_1.fq.gz: invalid compressed data--format violated
    gzip: P2_DCIS_Exome_2_val_2.fq.gz: invalid compressed data--format violated
    gzip: P2_Norm_Exome_1_val_1.fq.gz: invalid compressed data--format violated
    

    那这样就有两种可能,第一是Trim Galore 运行失败,第二是raw 数据有问题

    首先检查log日志,发现6个样本都是Trim Galore 运行失败,而最后的P9_Norm是raw数据有问题

    那么就对P9_Norm是raw数据重新运行 Trim Galore ,报错如下:

    This is cutadapt 1.18 with Python 2.7.16
    Command line parameters: -f fastq -e 0.1 -q 25 -O 3 -a AGATCGGAAGAGC /home/yb77613/data/public/IDC-DCIS/raw_fq/P9_Norm_Exome_1.fastq.gz
    Processing reads on 1 core in single-end mode ...
    cutadapt: error: At line 3: Sequence descriptions in the FASTQ file don't match ('SRR6269872.30075503 30075503 68 length=76' != 'SRR6269872.30075468 30075468 length=76').
    The second sequence description must be either empty or equal to the first description.
    
    Cutadapt terminated with exit signal: '256'.
    Terminating Trim Galore run, please check error message(s) to get an idea what went wrong...
    
    

    然后检查了:

    $zcat P9_Norm_Exome_1.fastq.gz |grep SRR6269872.30075503
    @SRR6269872.30075503 30075503 68 length=76
    @SRR6269872.30075503 30075503 68 length=76
    
    gzip: P9_Norm_Exome_1.fastq.gz: invalid compressed data--format violated
    
    

    没办法理解为什么两条一模一样的reads会出现在这个fq文件里面。

    检查原始md5值是:MD5 (P9_Norm_Exome_1.fastq.gz) = d8bfa6d7fb25fc5b51601fefd635e033
    检查拷贝的md5值是: 95c956d83fc51ae467922c228e8c6df1 P9_Norm_Exome_1.fastq.gz

    所以确定是拷贝的时候出现了问题。

    顺便检查了 右端测序数据:

    $md5sum  P9_Norm_Exome_2.fastq.gz
    426bcc6ccb1168c69624170443d23e29  P9_Norm_Exome_2.fastq.gz
    
    (qc) jianmingzengs-iMac:IDC jmzeng$ md5 P9_Norm_Exome_2.fastq.gz 
    MD5 (P9_Norm_Exome_2.fastq.gz) = 426bcc6ccb1168c69624170443d23e29
    

    好吧,也就是说,重新上传那个拷贝失误的数据即可。

    但其实我并不明白为什么gz格式的fq文件拷贝会出现意外?一条reads会出现两次?

    相关文章

      网友评论

        本文标题:再次说明md5检查文件完整度的重要性

        本文链接:https://www.haomeiwen.com/subject/hlnudctx.html