【编程技巧】shell+R双重并行化——加速分析过程

作者: UnderStorm | 来源:发表于2019-02-24 12:28 被阅读112次

【编程技巧】shell+R双重并行化——加速分析过程
有关并行的两个定律
10个简单的hacker加速你在Python中的数据分析
Python数据预处理：使用Dask和Numba并行化加速
素有高冷之称，曾被微软放言取代冯氏结构的FPGA，被阿里云玩“活
素有高冷之称，曾被微软放言取代冯氏结构的FPGA，被阿里云玩“活
2018-05-11
并发编程中三个基础概念(原子性,可见性,有序性)的理解与实践
【并行】【转载】gun parallel
并行编程——Lesson2：GPU硬件和并行通信模式

问题描述

shell并行化

R并行化

shell+R双重并行化实现案例

问题描述

在进行宏基因组shotgun数据分析时，数据集分case和control两组，每组11个样本，通过Gene Profiling得到400多万行的profile（以RPKM方式进行定量），得到的proflie文件有600+MB

接着想用wilcox检验来筛选两组gene abundance存在差异的基因，结果跑了一天一夜没跑出结果

在排除脚本问题后，基本确定问题是数据量太大，计算效率太低导致的，在解决这个问题过程中总结出了一种加速技巧：shell+R的双重并行化

shell并行化

我目前所知道的在linux环境下的并行化实现方式有两种：

（1）利用Slurm排队系统

可以使用--array=1-11%4参数来指定任务队列编号为1-11，每次最多并行执行4个任务

有两种书写格式：

1. 作为sbatch的参数
$ sbatch --array=1-11%4 tasks.sh

2. 写在shell脚本内部
如：
    #!/bin/bash
    #SBATCH --array=1-11%4
    ...

（2）使用do{...} &;done;wait语句

该语句的格式为：

while read i
do
    {
    ...
    } &
done
wait

或

for((i=0;i<n;i++)
do
    {
    ...
    } &
done
wait

例如：

for((i=0;i<10;i++))
do
    {
    echo $i
    sleep 5
    } &
done
wait

上面的命令如果不使用并行化，则总的执行时间为10*5=50秒，而并行之后只需要5秒

可以在该命令模块外面再套一层循环，来控制每次并行化的任务数量，这个需求在大多数情况下是非常必要的：若总的任务很多，如果不对每一次并行化的任务数进行控制，而是一股脑地全部提交并行任务，非常容易到达服务器的负荷上限，那么等着你的很可能就是其他用户的骂声一片和服务器管理员的警告了！

例如，从1到100，每次输出5个数，每次输出后间隔5秒后再继续下一轮的输出：

for((i=0;5*i<100;i++))
do
    for((j=5*i+1;j<5*i+6;j++))
    do
        {
        echo $j
        sleep 5
        } &
    done
    wait
done

R并行化

R的并行化是在 *apply 系列函数的基础上产生的，所以在介绍R的并行化之前，有必要对 *apply 系列函数作一个简单的说明，下面只对apply( )进行说明

函数语法格式：apply(x, margin, fun, ...)

x：一个data.frame或者是一个matrix

margin：选择1或者2，1表示行，2表示列

fun：一个函数对象，可以是R自带的，也可以是用户自定义的函数

...：传递给函数fun的其他变量

例如：apply(x,1,sum)，将变量x逐行传递给函数sum，进行求和，得到的是变量x每行的和的列表

一个任务之所以能够进行并行化处理，是因为该任务可以被拆分成许多个相互独立的小任务，每个小任务的求解对其他任务没有任何影响，因此可以对它们进行分而治之，最后将每个小任务求解结果进行汇总，即简单地合并，apply函数实现的就是这样的任务，将一个比较大的变量X按照行（margin=1）或列（margin=2）进行拆分，然后对每个行分别独立地进行求解

但是*apply系列函数的分治策略并没有进行并行化，是一个只利用了一个线程的串行任务，但是由于它本身的分治属性，对它进行简单地改造和封装，就可以实现高效地并行化，这便是parallel包

library(parallel)

# 初始化一个并行化的集群
## 设置集群使用的核心数
if (is.na(Args[4])){
    no_cores <- detectCores() - 10
} else {
    no_cores <- as.integer(Args[4])
}
## 按照指定的核心数，初始化一个集群对象
cl <- makeCluster(no_cores)

# 调用parApply函数，执行并行化任务
out <- parApply(cl,data,1,fun)

# 任务结束后，关闭集群对象
stopCluster(cl)

shell+R双重并行化实现案例

有了上面提到的shell与R的并行化的实现方法，那么我们就可以将其运用于本文一开始提到的问题

并行化的思路：

（1）先将原始的大profile文件进行拆分，若每m行拆成一个subprofile，可以拆成n个subprofiles

（2）对这n个subprofiles，按照每i个执行一次并行化任务（shell并行化），给每个并行化任务j个核心（R并行化）

shell脚本

脚本名：ParWilcox.sh

# 参数说明：
# - Profile files
# - rows per sub-profile
# - maximum tasks per run
# - outdir

profiles=$1
nrow_per=$2
num_tasks=$3
outdir=$4
if [ ! -d $outdir ]
then
    mkdir -p $outdir
fi
if [ -f $outdir/SubProfiles.list ]
then
    rm $outdir/SubProfiles.list
fi

##################################需要修改的变量##################################
workdir=/Path/To/Workdir
################################################################################

# 分割原始Profiles
nline=$(wc -l $profiles | awk '{printf $1}')
for((i=0;i*nrow_per<nline;i++))
do
    awk -v j=$i -v n=$nrow_per 'NR==1 || (NR>j*n+1 && NR<=(j+1)*n+1)' $profiles >$outdir/SubProfiles-${i}
    echo "SubProfiles-${i}" >>$outdir/SubProfiles.list
done

# 并行化执行多个sub-profile的wilcox检验
num_SubProfiles=$(wc -l $outdir/SubProfiles.list | awk '{printf $1}')
for((i=0;i*num_tasks<num_SubProfiles;i++))
do
    awk -v j=$i -v n=$num_tasks 'NR>j*n && NR<=(j+1)*n' $outdir/SubProfiles.list > $outdir/current_subprofiles.List
    while read subprofile
    do
        {
        Rscript $workdir/Script/wilcox-sided-parallel.R $outdir/$subprofile $workdir/Gene_abundance/SampleGroup.txt $outdir/statOut.$subprofile 2
        } &
    done < $outdir/current_subprofiles.List
    wait
done
cat $outdir/statOut.* >$outdir/statOut
rm $outdir/statOut.*

被shell脚本调用的执行wilcox检验的R脚本

脚本名：wilcox-sided-parallel.R

# 三个参数，按顺序分别为：
# - profiles matrix file
# - sample group file
# - outfile name
# - threads number（默认为服务器总线程-10）

Args <- commandArgs(T)

library(parallel)

# Initiate cluster
if (is.na(Args[4])){
    no_cores <- detectCores() - 10
} else {
    no_cores <- as.integer(Args[4])
}
cl <- makeCluster(no_cores)

data <- read.table(Args[1],head=T,row.names=1,sep='\t')
group <- read.table(Args[2],head=T,sep='\t')

# 找出profiles中每列代表的样本所属的组
col_group1 <- colnames(data) %in% sub('-','.',paste(group$Sample[group$Group==1],'.rpkm',sep=''))
col_group2 <- colnames(data) %in% sub('-','.',paste(group$Sample[group$Group==2],'.rpkm',sep=''))

# 对单个基因进行wilcox检验，并输出统计检验结果，输出格式如下：
#   geneName,pvalue,group1Median,group2Median,direction
wilcox_fun <- function(data,col_group1,col_group2){
    g1 <- as.numeric(data[col_group1])
    g2 <- as.numeric(data[col_group2])
    # 执行wilcox检验
    stat <- wilcox.test(g1,g2,paired = FALSE, exact=NULL, correct=TRUE, alternative="two.sided")
    if(is.na(stat$p.value)){
        stat$p.value <- 1
    }
    # 对有统计学意义的基因进行判断，是上调"up"还是下调"down"或者是不变"-"（对于组2，即不吃药组）
    if(stat$p.value < 0.1  & median(g1) < median(g2)){
        G12 <- c(ifelse(is.na(stat$p.value),1,stat$p.value),median(g1),median(g2),'down')
    }
    else if(stat$p.value < 0.1  & median(g1) > median(g2)){
        G12 <- c(ifelse(is.na(stat$p.value),1,stat$p.value),median(g1),median(g2),'up')
    }
    else if(stat$p.value < 0.1  & median(g1) == median(g2)){
        G12 <- c(ifelse(is.na(stat$p.value),1,stat$p.value),median(g1),median(g2),'-')
    }
    else{
        G12 <- c()
    }
    G12
}

statOut <- parApply(cl,data,1,wilcox_fun,col_group1,col_group2)
stopCluster(cl)

# 删除为NULL的列表元素
for(i in names(statOut)){
    if(is.null(statOut[[i]])){
        statOut[[i]] <- NULL
    }
}

# 将结果写入文件中
if(!is.null(statOut)){
    # 转换成数据框
    statOut <- as.data.frame(t(as.matrix(as.data.frame(statOut))))
    colnames(statOut) <- c('pvalue','group1Median','group2Median','direction')
    # 写入文件
    write.table(statOut,Args[3],sep = '\t',row.names = T,col.names = T,quote = F)
}

执行方法如下：

$ bash ParWilcox.sh <raw profile> <rows per sub-profile> <tasks per run> <threads>

脚本中用到的样本分组文件，如下：

Sample  Group
NP-003A 1
NP-017A 1
NP-018A 1
...
NP-007A 2
NP-010A 2
NP-011A 2
...

【编程技巧】shell+R双重并行化——加速分析过程
目录问题描述shell并行化R并行化shell+R双重并行化实现案例问题描述在进行宏基因组shotgun数据...
有关并行的两个定律
Amdahl定律（阿姆达尔定律）-定义串行系统并行化后的加速比的计算公式和理论上限-加速比定义：加速比=优化前系统...
10个简单的hacker加速你在Python中的数据分析
10个简单的hacker技术加速你在Python中的数据分析来源技巧和窍门，特别是在编程领域，可以非常有用。有...
Python数据预处理：使用Dask和Numba并行化加速
摘要：本文是针对Python设计一种并行处理数据的解决方案——使用Dask和Numba并行化加速运算速度。案例对比...
素有高冷之称，曾被微软放言取代冯氏结构的FPGA，被阿里云玩“活
对于专业人士来说，FPGA (现场可编程门阵列)并不陌生，由于其硬件并行加速能力和可编程特性，在传统通信领域和IC...
素有高冷之称，曾被微软放言取代冯氏结构的FPGA，被阿里云玩“活
对于专业人士来说，FPGA (现场可编程门阵列)并不陌生，由于其硬件并行加速能力和可编程特性，在传统通信领域和IC...
2018-05-11
FPGA (现场可编程门阵列)由于其硬件并行加速能力和可编程特性，在传统通信领域和IC设计领域大放异彩。一路走来，...
并发编程中三个基础概念(原子性,可见性,有序性)的理解与实践
并行编程中三个基础概念(原子性,可见性,有序性)的理解与实践在分析线程安全问题时，需要理解在并行编程中的三个基础...
【并行】【转载】gun parallel
原网站：Parallel并行命令加速执行#原始网址失效Parallel并行命令加速执行还是值得学习下，目前还没熟...
并行编程——Lesson2：GPU硬件和并行通信模式
前言《并行编程》系列是学习《Intro to Parallel Programming》过程中所做的笔记记录以及...

【编程技巧】shell+R双重并行化——加速分析过程

问题描述

shell并行化

R并行化

shell+R双重并行化实现案例

相关文章

【编程技巧】shell+R双重并行化——加速分析过程

有关并行的两个定律

10个简单的hacker加速你在Python中的数据分析

Python数据预处理：使用Dask和Numba并行化加速

素有高冷之称，曾被微软放言取代冯氏结构的FPGA，被阿里云玩“活

素有高冷之称，曾被微软放言取代冯氏结构的FPGA，被阿里云玩“活

2018-05-11

并发编程中三个基础概念(原子性,可见性,有序性)的理解与实践

【并行】【转载】gun parallel

并行编程——Lesson2：GPU硬件和并行通信模式

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

R数据读取清理

R语言编程进阶