Step1. 下载参考组序列+建立索引
Index the reference genome
软件:bowtie2 samtools
bowtie2 -build x.fa x
samtools faidx x.fa
samtools dict x.fa -o x.dict
Step2. 比对
- 软件:bwa
bwa mem -t 4 -R '@RG\tID:sample id\tPL:illumina\tSM:sample id' /your reference/x.fa /your path/cleandata/cleanSRRxxxxxx_1.fastq.gz /your path/cleandata/cleanSRRxxxxxx_2.fastq.gz > SRRxxxxxx.sam
# 其中@RG\tID和tSM 非常重要,建议与你的测序样品编号保持一致
# -t 根据课题组服务器配置适当更改
- 软件:bowtie2
bowtie2 -p -5 -x x -1 cleanSRRxxxxxx_1.fastq.gz -2 cleanSRRxxxxxx_2.fastq.gz -rg-id test --rg "PL:ILLUMINA" --rg "SM:sample id" -S sampleid.sam
选择其一即可
Step3. 排序
软件:samtools
samtools view -S -b - > .bam
samtools view --threads 8 -bS SRRxxxxxx.sam -o SRRxxxxxx.bam # sam 转 bam
samtools sort -@ 4 -O bam -o SRRxxxxxx.sorted.bam SRRxxxxxx.bam # bam 排序
samtools sort -@ 4 -O bam -o SRRxxxxxx.sorted.bam *.bam # 对目录下所有bam文件进行排序
samtools index SRRxxxxxx.sorted.bam # 为 bam file 建立索引
实际分析中,一般会将比对+排序一步完成, 省去中间文件的产生
$ bwa mem -t 12 -M -R "@RG\tID:sample id\tPL:ILLUMINA\tLB:W2018001\tSM:sample id" /your/path/reference/x.fa SRRxxxxxx.1.fq.gz SRRxxxxxx.1.fq.gz | samtools view -q 1 -hSb - > SRRxxxxxx.bam
# -q 1: 保留MAPQ >= 1的记录
# -h :表示保留header信息
# -S,-b:表示格式,S指的是sam格式,b指的是bam格式
Step4. 标记重复/去重复
- 软件:Picard
java -jar /your path/picard.jar MarkDuplicates I=SRRxxxxxx.sorted.bam O=SRRxxxxxx.sorted.markdup.bam M=SRRxxxxxx.sorted.markdup_metrics # 标记PCR重复 比较推荐
java -jar /opt/biosoft/picard-tools-2.17.3/picard.jar MarkDuplicates I=SRRxxxxxx.bam REMOVE_DUPLICATES=TRUE O=SRRxxxxxx.rm.bam M=SRRxxxxxx.metrics # 去除PCR重复
- 软件:samtools
samtools index SRRxxxxxx.sorted.markdup.bam # 对标记后的bam文件建立索引
samtools index SRRxxxxxx.sorted.rm.bam # 对去重后的bam文件建立索引
参考
https://www.jianshu.com/p/f190f9dfac03 作者:wo_monic
https://www.jianshu.com/p/994fe188af25 作者:十三而舍
https://tongshiyuan.github.io/categories/%E6%88%91%E7%9A%84WGS/ 作者十三而舍
网友评论