一个不成熟的小脚本，ATAC数据一键预处理从fastq到trea

作者: 基因组学研究生 | 来源:发表于2021-09-12 16:55 被阅读0次

一个不成熟的小脚本，ATAC数据一键预处理从fastq到trea
ATAC-seq数据可视化——超简单教程
定时向服务器上传文件的实现
scATAC-seq 分析资料
RNA-Seq数据分析—fastp v0.23.1
Openshift实现Etcd一键备份与一键恢复脚本
用python分割fastq文件的脚本（自写）
RNA-seq数据处理前后的比较
XiaLab的Read2Counts.pl
测序数据质控和预处理之fastp

数据从下机fq.gz文件到可用的 .bam文件，每次都需要运行去接头，比对，去复，去MT，shift，排序等...

尽管俺把他们都写在了一个shell中，但是每次还是需要修改一些输入输出的参数，并且数据的输出位置也比较混乱，于是写了下面这个省事脚本。

这个脚本......非常潦草......但是能用......稍微方便了一些的吧......记录学习的过程......

【atac-single.sh】对ATAC的fq.gz文件进行一键前期处理，得到可用的bam文件，文件在最下方......

脚本流程如下：

1、【trim_galore】命令去接头

2、【bwa】进行比对

3、【samtools】进行bam转换

4、【picard】去除Duplication

5、【samtools】进行bam filter,具体参数参考脚本

6、【deeptools】进行ATAC bam shift

7、【samtools】排序并创建索引，得到最终处理好的bam及索引文件

脚本就随便取了个名字叫atac-single.sh，设置了7个参数，分别是：

    [-1] the first fastq files      [-2] the second fastq files      [-o] the output directory,must be ended with [/]      example:[/home/mypath/]      [-a] path to the reference fasta file, for mouse it can be mm10.fa      [-p] processes to uss, default:1      [-g] genomesize file      [-j] path to picard.jar file

用法：

atac-single.sh -1 [1.fq.gz] -2 [2.fq.gz] -o [output_dir] -a [ref.fa] -g [genome_size_file] -j [path_to_picard.jar] -p [processes number]

用户只需要指定输出文件夹，脚本会在该文件夹下自动创建Trim，MAP, prebam, shifted四个文件夹，分别存放Trim后的fq, Map后的sam文件，预处理的bam文件，最终的经过ATAC SHIFT的bam文件。

Example:

outputdir=/path/to/atac/M25/ #定义输出文件夹，必须以“/” 结尾bwaindex=/path/to/database/mm10/index_bwa/mm10.fa #定义参考基因组picardrun=/path/to/picard-2.23.9-0/picard.jar #定义picard位置genomesize=/path/to/mm10.chrom.sizes #定义参考基因组大小文件位置run=/path/to/atac-single.sh #定义执行脚本的位置$run -1 prefix_R1.fq.gz -2 prefix_R2.fq.gz \ -o $outputdir  -a $bwaindex -p 4 -g $genomesize -j $picardrun

脚本将使用标准输出提示目前正在进行的步骤，可使用nohup将标准输出导向新文件。