美文网首页生物信息学
开始学着写shell脚本——1

开始学着写shell脚本——1

作者: 小明的数据分析笔记本 | 来源:发表于2020-05-02 11:33 被阅读0次
    这个脚本完全参考了文章

    https://www.jianshu.com/p/0b0c4ab4c38a (GATK4全基因组数据分析最佳实践,我以这篇文章为标志,终结当前WGS系列数据分析的流程主体问题 | 完全代码)

    获取文件名的前缀
    https://blog.csdn.net/Rong_Toa/article/details/104252766

    脚本

    用途:输入全基因组重测序的fastq文件和使用bowtie2构建的叶绿体参考基因组索引,提取全基因组重测序数据中的叶绿体基因组的数据

    fq1=$1
    fq2=$2
    reference=$3
    
    
    fq_file_name_1="${fq1%%.*}"
    fq_file_name_2="${fq2%%.*}"
    output_prefix="${fq1%%_*}"
    
    bowtie2 -q -x ${reference} -1 ${fq_file_name_1}.fastq -2 ${fq_file_name_2}.fastq -p 8 -S ${output_prefix}.sam
    
    echo '1 alignment done'
    
    samtools view -S -b -o ${output_prefix}.bam ${output_prefix}.sam
    
    echo '2 sam convert to bam done'
    
    samtools sort -n -O bam -o ${output_prefix}.sorted.bam ${output_prefix}.bam
    
    echo '3 sort by read name done'
    
    samtools view -u -f 1 -F 12 ${output_prefix}.sorted.bam > ${output_prefix}.sorted.aligned.bam
    
    echo '4 extract aligned reads done'
    
    bamToFastq -i ${output_prefix}.sorted.aligned.bam -fq mapped_R1.fastq -fq2 mapped_R2.fastq
    
    echo '5 The result files are mapped_R1.fastq and mapped_R2.fastq'
    
    

    使用方法是

    bash practice.sh input_1.fastq input_2.fastq reference/cp_index
    

    使用前提是samtools、bowtie2、和bamToFastq已经安装并且添加到了环境变量

    欢迎大家关注我的公众号
    小明的数据分析笔记本

    公众号二维码.jpg

    相关文章

      网友评论

        本文标题:开始学着写shell脚本——1

        本文链接:https://www.haomeiwen.com/subject/pofkghtx.html