美文网首页
WGS分析笔记(2)比对+去重 2021-12-28

WGS分析笔记(2)比对+去重 2021-12-28

作者: 阿含是白白 | 来源:发表于2021-12-28 18:58 被阅读0次

Step1. 下载参考组序列+建立索引

Index the reference genome

软件:bowtie2 samtools

bowtie2 -build x.fa x

samtools faidx x.fa

samtools dict x.fa -o x.dict

Step2. 比对

  1. 软件:bwa
bwa mem -t 4 -R '@RG\tID:sample id\tPL:illumina\tSM:sample id' /your reference/x.fa /your path/cleandata/cleanSRRxxxxxx_1.fastq.gz /your path/cleandata/cleanSRRxxxxxx_2.fastq.gz  > SRRxxxxxx.sam  
# 其中@RG\tID和tSM 非常重要,建议与你的测序样品编号保持一致
# -t 根据课题组服务器配置适当更改 
  1. 软件:bowtie2
bowtie2 -p -5 -x x -1 cleanSRRxxxxxx_1.fastq.gz -2 cleanSRRxxxxxx_2.fastq.gz -rg-id test --rg "PL:ILLUMINA" --rg "SM:sample id" -S sampleid.sam

选择其一即可

Step3. 排序

软件:samtools

samtools view -S  -b - > .bam
samtools view --threads 8 -bS SRRxxxxxx.sam -o SRRxxxxxx.bam # sam 转 bam
samtools sort -@ 4 -O bam -o SRRxxxxxx.sorted.bam SRRxxxxxx.bam # bam 排序
samtools sort -@ 4 -O bam -o SRRxxxxxx.sorted.bam *.bam # 对目录下所有bam文件进行排序
samtools index SRRxxxxxx.sorted.bam # 为 bam file 建立索引

实际分析中,一般会将比对+排序一步完成, 省去中间文件的产生

$ bwa mem -t 12 -M -R "@RG\tID:sample id\tPL:ILLUMINA\tLB:W2018001\tSM:sample id" /your/path/reference/x.fa SRRxxxxxx.1.fq.gz SRRxxxxxx.1.fq.gz | samtools view -q 1 -hSb - > SRRxxxxxx.bam
# -q 1: 保留MAPQ >= 1的记录
# -h :表示保留header信息
# -S,-b:表示格式,S指的是sam格式,b指的是bam格式

Step4. 标记重复/去重复

  1. 软件:Picard
java -jar /your path/picard.jar MarkDuplicates I=SRRxxxxxx.sorted.bam O=SRRxxxxxx.sorted.markdup.bam M=SRRxxxxxx.sorted.markdup_metrics # 标记PCR重复 比较推荐
java -jar /opt/biosoft/picard-tools-2.17.3/picard.jar MarkDuplicates I=SRRxxxxxx.bam REMOVE_DUPLICATES=TRUE O=SRRxxxxxx.rm.bam M=SRRxxxxxx.metrics # 去除PCR重复
  1. 软件:samtools
samtools index SRRxxxxxx.sorted.markdup.bam # 对标记后的bam文件建立索引
samtools index SRRxxxxxx.sorted.rm.bam # 对去重后的bam文件建立索引

参考

https://www.jianshu.com/p/f190f9dfac03 作者:wo_monic
https://www.jianshu.com/p/994fe188af25 作者:十三而舍
https://tongshiyuan.github.io/categories/%E6%88%91%E7%9A%84WGS/ 作者十三而舍

相关文章

网友评论

      本文标题:WGS分析笔记(2)比对+去重 2021-12-28

      本文链接:https://www.haomeiwen.com/subject/fvapqrtx.html