细菌基因组组装
SPAdes:
# 使用SPAdes组装细菌基因组
spades.py -o workingdir --careful -1 file_R1.fastq.gz -2 file_R2.fastq.gz -nanopore nano.fastq.gz -t 16 -k 21,33,55,77 -cov-cutoff 20
# 组装质粒
plasmidspades.py -o workingdir --careful -1 file_R1.fastq.gz -2 file_R2.fastq.gz -nanopore nano.fastq.gz -t 16 -k 21,33,55,77 -cov-cutoff 20
当我们有大批PE150数据需要组装时,使用以下代码可以进行批处理
#!/usr/bin/env bash
# 进入PE双末端数据目录
cd <pe数据目录>
# 创建输出目录
mkdir <genome_contigs>
ls *.gz | paste - - | while read a b; do echo "spades.py --careful -k 21,33,55,77 /
--cov-cutoff 20 -1 ${a} -2 ${b} -o /genome_contigs/${a%.1.fa.gz}"; done > spades.sh /
'''
生成可执行脚本
ls *.gz 表示将当前文件夹文件输出到桌面
| 竖线是linux流程符号,上一步输出,作为下一步输入
paste - - 表示将将要打印的文件份两列显示
while read a b 表示分别读取第一列为变量a, 第二列为变量b
do 是循环的动作
echo 打印的命令,随便量改变,输出一些列执行命令相同但文件不同的代码
> 将结果定向到spades.sh
${a} ${b} 表示变量,花括号可加可不加,一般选择加,方便区分变量界限
{a%.1.fa.gz} 中括号里面为正则表达式,表示去掉a字符中%号以后的字符
'''
bash spades.sh # 前台执行脚本命令,不可关闭shell
# 或
nohup spades.sh & # 后台执行,可关闭shell,退出远程服务器。
tail nohup.log # 查看脚本执行情况,以防代码有错,停止运行
完成
网友评论