Charpter_13 Short Read Aligners
背景
定义:Short read Aligners are commonly used software tools in bioinformatics, designed to align a very large number of short reads(billions).
短序列比对是以2005年二代测序革命所带来的一系列需求性软件,过去测序是一项比较昂贵的事情,所以那时候的比对软件都会以高精度准确性(near-optimal alignments)为准则。二代高通量测序革命以来,生物数据量开始以指数形式开始爆炸性增长,面对这种短读长(50-300),超高通量的数据,科学家开始研究能够将短reads快速准确回帖上基因组数据的算法,并开发相应的软件。高通量数据比对软件雨后春笋般开始出现。
Mapping和Alignment区别
Mapping:
- A mapping is a region where a read sequence is placed
- A mapping is regarded to be correct if it overlaps the true region
Alignment:
- An alignment is the detailed placement of each base in a read.
- An alignment is regarded to be correct if each base is placed correctly.
Mapping强调将短reads快速准确的回帖到基因组上的某一位置上,强调的是具体的位置,而不强调序列的完全一致;而Alignment联配强调检索序列和目标序列的每个碱基base都能有最佳匹配。比如SNP,基因结构(indel等)变异检测就强调Alignment,而RNA-seq是比对上基因的定量(相对宏观),强调MAPPPING。
如何选择比对软件
看具体应用场景,比如重测序大多用bwa
,转录组用Hisat2,bowtie,Star
等。
BWA和Bowtie
BWA由Li Heng大神所开发,运用最为广泛的比对软件。最新的比对算法为mem(maximally exact matches)。aln处理小于100bp的reads,mem处理大于70bp的reads
Bowtie第一个Burrows-Wheeler算法的短读长比对软件。分为bowtie和bowtie2,分别对处理50bp以下,和50bp以上的数据。
比对的基本步骤就是两步:
- 对参考序列构建索引index
- 对fasta或fastq文件比对索引
###获取EBOLA参考基因组
efetch -db nuccore -id AF086833 -format fasta > ebola.fa
### 构建索引
bwa index ebola.fa
bowtie2-build ebola.fa ebola.fa
###下载实验组sra序列
esearch -db sra -query PRJNA257197 |efetch -format runinfo >runinfo.csv
fastq-dump.2 -X 10000 --split-files SRR1972739
###比对,默认参数
REF=ebola.fa
R1=SRR1972739_1.fq
R2=SRR1972739_2.fq
bwa mem $REF $R1 $R2 > output.sam
bowtie2 -x $REF -1 $R1 -2 $R2 >bowtie_out.sam
bowtie2 --very-sensitive-local -x $REF -1 $R1 -2 $R2 >bowtie_out2.sam
bowtie2 -D 20 -R 3 -N 1 -L 20 -x $REF -1 $R1 -2 $R2 >bowtie_out3.sam
## 加上samtools 直接快速sort,多线程-@
bowtie2 -x $REF -1 $R1 -2 $R2 |samtools sort > bowtie_out.sorted.bam
samtools index bowtie_out.sorted.bam
- 注意bwa mem里的
scoring matrix
的参数为比对的打分矩阵设置。对于三代数据可用-x ont2d/pacbio
- bowtie2里的参数
--very-sensitive-loacl
.
最后,选择比对软件得看具体使用场景了。看大家用的多的啊就是了。
网友评论
改成fastq-dump就可以了,不知对不对。