细菌基因组组装

SPAdes：

# 使用SPAdes组装细菌基因组
spades.py -o workingdir --careful -1 file_R1.fastq.gz -2 file_R2.fastq.gz -nanopore nano.fastq.gz -t 16 -k 21,33,55,77 -cov-cutoff 20

# 组装质粒
plasmidspades.py -o workingdir --careful -1 file_R1.fastq.gz -2 file_R2.fastq.gz -nanopore nano.fastq.gz -t 16 -k 21,33,55,77 -cov-cutoff 20

当我们有大批PE150数据需要组装时，使用以下代码可以进行批处理

#!/usr/bin/env bash

# 进入PE双末端数据目录
cd <pe数据目录> 

# 创建输出目录
mkdir <genome_contigs> 
ls *.gz | paste - - | while read a b; do echo "spades.py --careful -k 21,33,55,77 /
 --cov-cutoff 20 -1 ${a} -2 ${b} -o /genome_contigs/${a%.1.fa.gz}"; done > spades.sh /
'''
生成可执行脚本
ls *.gz 表示将当前文件夹文件输出到桌面
 | 竖线是linux流程符号，上一步输出，作为下一步输入
paste - - 表示将将要打印的文件份两列显示
while read a b 表示分别读取第一列为变量a， 第二列为变量b
do 是循环的动作
echo 打印的命令，随便量改变，输出一些列执行命令相同但文件不同的代码
 > 将结果定向到spades.sh
${a} ${b} 表示变量，花括号可加可不加，一般选择加，方便区分变量界限
{a%.1.fa.gz} 中括号里面为正则表达式，表示去掉a字符中%号以后的字符
'''
bash spades.sh # 前台执行脚本命令，不可关闭shell
# 或
nohup spades.sh & # 后台执行，可关闭shell，退出远程服务器。
tail nohup.log # 查看脚本执行情况，以防代码有错，停止运行

完成