这个脚本完全参考了文章
https://www.jianshu.com/p/0b0c4ab4c38a (GATK4全基因组数据分析最佳实践,我以这篇文章为标志,终结当前WGS系列数据分析的流程主体问题 | 完全代码)
获取文件名的前缀
https://blog.csdn.net/Rong_Toa/article/details/104252766
脚本
用途:输入全基因组重测序的fastq文件和使用bowtie2构建的叶绿体参考基因组索引,提取全基因组重测序数据中的叶绿体基因组的数据
fq1=$1
fq2=$2
reference=$3
fq_file_name_1="${fq1%%.*}"
fq_file_name_2="${fq2%%.*}"
output_prefix="${fq1%%_*}"
bowtie2 -q -x ${reference} -1 ${fq_file_name_1}.fastq -2 ${fq_file_name_2}.fastq -p 8 -S ${output_prefix}.sam
echo '1 alignment done'
samtools view -S -b -o ${output_prefix}.bam ${output_prefix}.sam
echo '2 sam convert to bam done'
samtools sort -n -O bam -o ${output_prefix}.sorted.bam ${output_prefix}.bam
echo '3 sort by read name done'
samtools view -u -f 1 -F 12 ${output_prefix}.sorted.bam > ${output_prefix}.sorted.aligned.bam
echo '4 extract aligned reads done'
bamToFastq -i ${output_prefix}.sorted.aligned.bam -fq mapped_R1.fastq -fq2 mapped_R2.fastq
echo '5 The result files are mapped_R1.fastq and mapped_R2.fastq'
使用方法是
bash practice.sh input_1.fastq input_2.fastq reference/cp_index
使用前提是samtools、bowtie2、和bamToFastq已经安装并且添加到了环境变量
欢迎大家关注我的公众号
小明的数据分析笔记本
网友评论