美文网首页chipseqrna_seq
trim-galore并行处理时对文件的处理顺序

trim-galore并行处理时对文件的处理顺序

作者: Y大宽 | 来源:发表于2019-06-08 23:02 被阅读0次

具体流程见
trim_galore去接头(并行处理)
命令为

dir=/home/kelly/wesproject/4_clean/
cat config |while read id
do
      arr=${id}
      fq1=${arr[0]}
      fq2=${arr[1]}
      nohup trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 --paired -o $dir $fq1 $fq2 &
done

config是需要进行处理的文件列表
trim_galore命令这里用的也比较简单,总结下处理时遇到的问题

1 关于一次可以并行处理多少的问题

我从15个到20个到100个最后尝试几百个,同时处理,是可行的。但最佳是不要超过300个样本,这好像是我的服务器能处理的最大量。

2 中间文件

开始处理文件是fq 1,也就是先对_1文件进行去接头处理,开始生成的文件是

├── [ 581]  SRR8707681_1.fastq.gz_trimming_report.txt
├── [2.9G]  SRR8707681_1_trimmed.fq.gz

然后同时对-2进行去接头处理,但往往是对1完成大半后

├── [ 581]  SRR8707698_1.fastq.gz_trimming_report.txt
├── [2.9G]  SRR8707698_1_trimmed.fq.gz
├── [5.2K]  SRR8707698_2.fastq.gz_trimming_report.txt
├── [5.0K]  SRR8518370_1.fastq.gz_trimming_report.txt
├── [2.4G]  SRR8518370_1_trimmed.fq.gz
├── [ 581]  SRR8518370_2.fastq.gz_trimming_report.txt
├── [1.5G]  SRR8518370_2_trimmed.fq.gz

当1和2都去接头完成后,就会开始生成val文件,所以接下来会存在6个对应的文件,并且除report外都很大,下面是正在生成val
所以,这个如果并行很多样本,要空间够大

├── [4.7K]  SRR8518401_1.fastq.gz_trimming_report.txt
├── [1.9G]  SRR8518401_1_trimmed.fq.gz
├── [955M]  SRR8518401_1_val_1.fq.gz
├── [4.7K]  SRR8518401_2.fastq.gz_trimming_report.txt
├── [2.0G]  SRR8518401_2_trimmed.fq.gz
├── [1.0G]  SRR8518401_2_val_2.fq.gz

最后,
trimmed文件自动删除,只留下val文件

├── [4.7K]  SRR8518401_1.fastq.gz_trimming_report.txt
├── [1.8G]  SRR8518401_1_val_1.fq.gz
├── [4.9K]  SRR8518401_2.fastq.gz_trimming_report.txt
├── [2.0G]  SRR8518401_2_val_2.fq.gz

3 top和ps-ef进程

%cpu id开始很小,随着数据处理完成会越来越大
ps-ef到最后也都会显示已经结束
所以 在没有学会脚本判断进程是否结束之前,会用top和ps -ef来判断
htop更好用


详细信息可以去看nohup.out文件

相关文章

  • trim-galore并行处理时对文件的处理顺序

    具体流程见trim_galore去接头(并行处理)命令为 config是需要进行处理的文件列表trim_galor...

  • 【译】StackExchange.Redis中文使用文档--发布

    发布/订阅 消息顺序 当使用 发布/订阅 API 时,需要决定使用同一连接的消息应该是顺序处理 还是并行处理 。...

  • Java8 Stream-3 并行流

    1 用并行流并行处理数据 sequential() 顺序流parallel() 并行流 留意装箱。自动装箱和拆箱操...

  • RNA-seq数据处理前后的比较

    处理前的fastq原数据,trim-galore处理后的fq.gz(fastq)数据 (若处理数据则需要在rna小...

  • 并行数据处理与性能

    并行流 parallel() 如果每次应用函数都要依赖前一次应用的结果,并行只会比顺序处理增加开销。错用并行流的首...

  • perl并行处理大文件

    ​​​有时候会需要对大文件进行并行处理,但是perl中不像其他的语言,可以使用多线程,perl的多线程其实就是对文...

  • 多线程

    1. 并发与并行的概念: 并发:一个处理器在同一时段内处理不同的任务 并行: 多个处理器或者一个多核处理器在同一时...

  • Java并发 -- CountDownLatch + Cycli

    性能瓶颈 getPOrder()和getDOrder()最为耗时,并且两个操作没有先后顺序的依赖,可以 并行处理 ...

  • 【Java进阶营】Java并发 -- CountDownLatc

    性能瓶颈 getPOrder()和getDOrder()最为耗时,并且两个操作没有先后顺序的依赖,可以 并行处理 ...

  • Nginx 请求处理阶段

    Nginx 处理每一个用户请求时,都是按照若干个不同阶段(phase)依次处理的,而不是根据配置文件上的顺序。 N...

网友评论

    本文标题:trim-galore并行处理时对文件的处理顺序

    本文链接:https://www.haomeiwen.com/subject/syywxctx.html