美文网首页
linux | while + read 实现本地or集群批处理

linux | while + read 实现本地or集群批处理

作者: 生信云笔记 | 来源:发表于2023-09-17 17:49 被阅读0次
while condition
do
   statement code
   ....
   <condition change statement>
done

关键字:continue;break

  linux系统可以通过shell代码提供强大的批处理能力,想要实现批处理那自然不可避免地要用到循环,自然地就想到shell中常用的两种循环:forwhile。大部分情况下,这两种循环方式可以通用,但有些场景使用while更为简洁优雅。
  下面咱们就来说说while循环,回到文章开头,可以看到一个循环模板的范式,以while关键字标志开始,后面接着条件,do关键字的下一行开始为正真要执行的代码段,接着改变一下循环的初始条件,最后以done关键字结束标志。具体使用就是,通常情况下先定义循环的初始条件,然后将模板中的conditionstatement code<condition change statement>替换为真实有效的代码即可。
  下面咱们先从小学算术开始,来个简单的示例,感受一下while循环的常规用法。例如,计算1 - 100的加和:

sum=0
i=1

while [ $i -le 100 ]
do
    let sum=$sum+$i
    let i=$i+1
done
 
echo $sum

  这段代码实现了1 - 100的求和,首先定义循环初始条件i=1,然后将condition替换为[ $i -le 100 ] (意思即i <= 100时条件都成立,shell中的比较大小比较运算还有,-eq:等于;-ne:不等于;-gt:大于;-ge:大于等于;-lt:小于;),statement code替换为let sum=$sum+$i (将i的累加值赋值给变量sum),<condition change statement>替换为let i=$i+1 (每循环一次i值加1),最终循环一百次后得到总和。这种常规用法,一定要注意循环条件和每次循环后要修改初始条件,否则很容易出错和陷入死循环。
  做生信数据处理时,很少这么使用,配合read使用才更为丝滑,这样会将while循环变得跟for循环一样,无需考虑循环条件。下面来看看具体实例。
  最近分析了一批ChIP-seq的数据十多个样本,数据中都掺入了spike-in (之前写过一个帖子介绍关于spike-in的用途,感兴趣的戳这里[spike-in的那些事]),用来全局矫正富集信号。选定一个样本做为参考,得到其他样本的信号矫正因子,然后获得矫正后的信号文件bigwig

ls mapping_result
sample10.dedup.bam  sample12.dedup.bam  sample2.dedup.bam  sample4.dedup.bam  sample6.dedup.bam  sample8.dedup.bam
sample11.dedup.bam  sample1.dedup.bam   sample3.dedup.bam  sample5.dedup.bam  sample7.dedup.bam  sample9.dedup.bam

head -n3 sfactor.txt
sample1 1.0
sample2 0.59662
sample3 0.68959

  spike-in在样本中的掺入比例一致,测序后以一个样本spike-in的测序reads为参考,将其他样本的spike-in测序reads矫正到与参考一致,获得矫正因子,然后bam转换为bigwig时乘以因子来矫正信号。

#!/usr/bin/bash

if [ ! -d bam2bw ];then
   mkdir bam2bw
fi

cat sfactor.txt | while read sname sfactor
do
   bamCoverage -p 6 --scaleFactor $sfactor -b mapping_result/${sname}.dedup.bam -o bam2bw/${sname}.sfactor.bw
done

  while + read模式可以从文件或者标准输入读取内容,每次读取一行,循环的次数取决于内容的行数,无需设置循环条件。并且,read读行时可以根据分割符将内容赋值给不同变量,有对应关系的信息放在一行着实方便地很。
  当然,如果有集群可用,把上面循环内的命令替换为提交命令,即可使用服务器的并行能力大大缩短运行时间,下面以SGE为例:

#!/usr/bin/bash

if [ ! -d bam2bw ];then
   mkdir bam2bw
fi

cat sfactor.txt | while read sname sfactor
do
   echo bamCoverage -p 6 --scaleFactor $sfactor -b mapping_result/${sname}.dedup.bam -o bam2bw/${sname}.sfactor.bw | qsub -N $sname -e bam2bw/${sname}.sfactor.e -o bam2bw/${sname}.sfactor.o -cwd
done

  while循环还适合用于监控脚本,将condition替换为字符true,将会无限循环,这样可以一直在后台运行用来监控特定的程序。当然,也可以结合if判断语句和关键词continuebreak跳出一次循环或者整个循环。

往期回顾

pyscenic | 单细胞转录因子分析,原理图文详解
一网打尽scRNA矩阵格式读取和转化(h5 h5ad loom)
ggplot2 | 开发自己的画图函数
R包安装的4种姿势
clusterProfiler: No gene can be mapped | 怎么破?

相关文章

网友评论

      本文标题:linux | while + read 实现本地or集群批处理

      本文链接:https://www.haomeiwen.com/subject/hyrsvdtx.html