和长序列比对不同,短序列比对有其自身的特点与应用。
就是将测序的reads 重新定位到基因组上,这个过程也叫做回帖
、mapping
。
-
需要内容
illumina 测序数据特点
- 测序覆盖全基因组
- 测序数据读长短(可能会导致出现读长片段无法识别到基因组上)
- 测序数据具有一定的错误率
- 测序数据深度高(利用测序的深度,也即测序次数,来降低测序数据错误带来的干扰)
- 测序数据具有Pair-end 的关系
reads 比对情况
- perfect match,reads 一对一正确比对到基因组上位置。
- reads 有错配的比对到基因组唯一位置。(可能由于突变造成、也可能是测序错误)
- reads 无错配的比对到基因组多个位置。(重复区域)
- reads 有错配的比对到基因组多个位置。
- reads 比对不到基因组上。(同源性低、测序错误、突变太多等等。。)
短序列比对应用
reads 利用率
覆盖深度与覆盖比率
覆盖深度,coverage depth,也叫做覆盖度、乘数,是指每个碱基被测序的平均次数
,是用来衡量测序量的首要参数。
覆盖比率,coverage ratio,覆盖率,指被测序到的碱基占全基因组的大小
。
一个好的测序,需要具备较高的覆盖比率与覆盖深度。
一般测序会存在高、低覆盖区,这些区域产生的原因可能是由于GC 偏向造成的。
高覆盖深度区域相对来说准确性也更高。
而覆盖比率也可以近似的反映测序序列与参考序列的相似程度,若覆盖比率较高,也就具有较高的同源性。
当测序样品与参考序列为远缘关系时,短序列比对就很难比对到参考序列上。
-
物理覆盖度包含测序覆盖度
在PE测序中,测序深度指该位点实际被测序序列覆盖的情况;而物理覆盖度则指位点被多少对reads 跨越的数目。
物理覆盖度一般用于变异检测。
短序列比对工具
算法
- 空位种子片段索引法
- Burrows Wheeler 转换法(最常用)
- Smith-Waterman 动态规划算法
工具
BWA
bwa是短序列比对中最常用的工具。可以输出
bam
与sam
。
使用步骤
1.对参考序列构建索引
通用语法:
bwa index [-a bwtsw|is] [-c] <in.fasta>
选项bwtsw
适用于大基因组,一般小于10M的就不适用,比如细菌;而选项is
不适合大基因组,一般大于2G,比如人。
2.对reads 建立索引
通用语法
bwa aln [options] <prefix> <in.fq>
此外还有很多的选项
3.sampe 比对
构建完了reads 与参考基因的索引文件,就可以进行比对。一般双末端选用Sampe
。如果是单末端,则选择samse
。
比对文件会输出为.sam
格式。
soup
https://bio.tools/soap
soup,全称short oligonucleotide analysis package。为华大开发的软件工具包。soup 在比对时与bwa 一样,同样采用了bwt 算法。
使用步骤
1.建立索引
2.soup比对
soup 输出结果并非sam,但soup也可以转换为sam格式。
bowtie
与前面两个软件类似,但速度更快,一般应用于RNAseq分析。
但bowtie 也有许多限制,如不支持长度太大片段等。
软件的比较
- 准确性
- 内存消耗
- 速度
网友评论