美文网首页
利用python对GATK多线程加速

利用python对GATK多线程加速

作者: 陈光辉_山东花生 | 来源:发表于2021-01-15 13:04 被阅读0次

GATK 变异分析对于大数据样本可能会比较慢,因此可以按照染色体拆分后进行多线程并行计算。下面是我写的一个python多线程脚本,仅供参考,拙劣之处敬请指正。

#!/usr/bin/python3

import _thread
import os

import threading
import time

muthreads=[]
bam_file="a.mkdup.bam"
out_file_prefix="flower" 
chr_list=["CHR01","CHR02","CHR03","CHR04","CHR05","CHR06","CHR07","CHR08","CHR09","CHR10","CHR11","CHR12","CHR13"]
for chr in chr_list:

    threads_comonder_name= "gatk   HaplotypeCaller --intervals " + chr +"  -R /mnt/j/BSA/02-read-align/Tifrunner2.fasta -I " + bam_file + "   -ERC GVCF -O "+ out_file_prefix +"-"+chr+".erc.g.vcf"
    muthreads.append(threads_comonder_name)

exitFlag = 0

class myThread (threading.Thread):
    def __init__(self, threadID, name, counter, comander):
        threading.Thread.__init__(self)
        self.threadID = threadID
        self.name = name
        self.counter = counter
        self.comander = comander
    def run(self):
        print ("开始线程:" + self.name)
        print_time(self.name, self.counter, 5, self.comander)
        print ("退出线程:" + self.name)

def print_time(threadName, delay, counter,comander):
          # while counter:
   if exitFlag:
      threadName.exit()
   time.sleep(delay)

   print(comander)
   os.system(comander)#调用操作系统命令行处理数据
        # counter -= 1
# 创建新线程
threadlist=[]
for i, threadsnu in enumerate(muthreads[0:11]):
    print(i)
    print(threadsnu)
    threadsnew=myThread(1, "Thread-" + str(i), 2, threadsnu)
    threadlist.append(threadsnew)
# 开启新线程
for threads in threadlist:
    threads.start()
for threads in threadlist:
    threads.join()

print ("运行结束退出主线程")


下面的来自网络未验证

多条染色体的同样本的vcf文件合并

# for i in {1..22} X Y ;do echo "-I final_chr$i.vcf" '\';done
# for i in {10..19} {1..9} M X Y ;do echo "-I final_chr$i.vcf" '\';done
module load java/1.8.0_91
GATK=/home/jianmingzeng/biosoft/GATK/gatk-4.0.3.0/gatk
$GATK GatherVcfs  \
-I final_chr1.vcf \
-I final_chr2.vcf \
-I final_chr3.vcf \
-I final_chr4.vcf \
-I final_chr5.vcf \
-I final_chr6.vcf \
-I final_chr7.vcf \
-I final_chr8.vcf \
-I final_chr9.vcf \
-I final_chr10.vcf \
-I final_chr11.vcf \
-I final_chr12.vcf \
-I final_chr13.vcf \
-I final_chr14.vcf \
-I final_chr15.vcf \
-I final_chr16.vcf \
-I final_chr17.vcf \
-I final_chr18.vcf \
-I final_chr19.vcf \
-I final_chr20.vcf \
-I final_chr21.vcf \
-I final_chr22.vcf \
-I final_chrX.vcf \
-I final_chrY.vcf \
-O merge.vcf 
合并的时候需要注意,vcf文件的顺序跟每个vcf文件里面头文件顺序是相同的。

相关文章

  • 利用python对GATK多线程加速

    GATK 变异分析对于大数据样本可能会比较慢,因此可以按照染色体拆分后进行多线程并行计算。下面是我写的一个pyth...

  • 《莫烦Python3基础教程》学习笔记3

    一.Threading 多线程 1.什么是多线程 多线程是加速程序计算的有效方式,Python的多线程模块thre...

  • 09-多进程间的通信与数据共享

    上篇文章对python多线程进行了介绍,GIL锁使得python的多线程并不能并发执行,为了提高多核CPU的利用率...

  • 用conda下载安装gatk3.8并注册

    现在gatk已经更新到gatk4了,但是gatk3.8还是有很多应用的场景,比如指定多线程,并且有些功能在gatk...

  • 多线程、多进程、池化

    python程序默认单核线性执行程序,为更高效利用计算机的多核、多线程能力,python搭建了多线程、多进程的机制...

  • 项目经历叙述流程

    GATK软件pairhmm算法FPGA加速(altera arria 10芯片 xilinx Kintex ult...

  • Python并发编程

    Python解释器由于设计时有GIL全局锁,导致了多线程无法利用多核。多线程的并发在Python中就是一个美丽的梦...

  • python多线程、队列

    实例: python的多线程实际是个假的多线程,不管你有多少核,都只会用一个核。python利用CPU上下文切换的...

  • Python多线程编程——多线程编程中的加锁机制

    如果大家对Python中的多线程编程不是很了解,推荐大家阅读之前的两篇文章:Python多线程编程——多线程基础介...

  • 多线程

    threading 模块 在 Python 中实现多线程,可以利用 threading 模块中的 Thread 来...

网友评论

      本文标题:利用python对GATK多线程加速

      本文链接:https://www.haomeiwen.com/subject/mnziaktx.html