RNA-seq数据,PE150策略,公司给出了rawdata及cleandata
公司给出的下机数据格式
格式如下图
每个标本一个文件夹 每个文件夹包括双端测序的fq格式文件及MD5校验文件
由于服务器空间有限,因此在自己的移动硬盘处理数据,每个流程一个文件夹,定义移动硬盘的check文件夹维目录检查内容
进入文件夹
cd /home/test/project/check
设定目录
ad=/home/test/project/data
nohup find $ad -name *.gz -print0 | xargs -0 md5sum > check.md5 &
因为可能需要较长时间,因此放入后台运行并挂起
nohup find $ad -name *.txt -print0 |xargs -0 cat > check.list &
把每个文件夹的md5文件整理并放入check.list中
awk '{print $1}' check.list >newcheck
awk '{print $1}' check.md5 >newmd5
md5值在每个文件中的第一列中,提取出来并新建目录
diff -s newcheck newmd5
利用diff命令对比两文件并最终确定是否相同,s参数的意义是对比正确后予以显示
结果
网友评论