下机数据校验md5值

作者: 灵活胖子的进步之路 | 来源:发表于2020-11-10 20:05 被阅读0次

    RNA-seq数据,PE150策略,公司给出了rawdata及cleandata

    公司给出的下机数据格式

    格式如下图


    每个标本一个文件夹 每个文件夹包括双端测序的fq格式文件及MD5校验文件

    由于服务器空间有限,因此在自己的移动硬盘处理数据,每个流程一个文件夹,定义移动硬盘的check文件夹维目录检查内容

    进入文件夹

    cd /home/test/project/check

    设定目录

    ad=/home/test/project/data
    
    nohup find $ad  -name   *.gz  -print0 | xargs -0 md5sum > check.md5 &
    

    因为可能需要较长时间,因此放入后台运行并挂起

    nohup find  $ad  -name    *.txt -print0 |xargs -0  cat > check.list &
    

    把每个文件夹的md5文件整理并放入check.list中

    awk '{print $1}' check.list >newcheck
    awk '{print $1}' check.md5 >newmd5
    

    md5值在每个文件中的第一列中,提取出来并新建目录

    diff -s newcheck newmd5
    

    利用diff命令对比两文件并最终确定是否相同,s参数的意义是对比正确后予以显示


    结果

    相关文章

      网友评论

        本文标题:下机数据校验md5值

        本文链接:https://www.haomeiwen.com/subject/uxojbktx.html