美文网首页
短序列比对及常用文件

短序列比对及常用文件

作者: Peng_001 | 来源:发表于2020-06-13 20:28 被阅读0次

和长序列比对不同,短序列比对有其自身的特点与应用。

就是将测序的reads 重新定位到基因组上,这个过程也叫做回帖mapping

  • 需要内容


illumina 测序数据特点

  • 测序覆盖全基因组
  • 测序数据读长短(可能会导致出现读长片段无法识别到基因组上)
  • 测序数据具有一定的错误率
  • 测序数据深度高(利用测序的深度,也即测序次数,来降低测序数据错误带来的干扰)
  • 测序数据具有Pair-end 的关系

reads 比对情况

  1. perfect match,reads 一对一正确比对到基因组上位置。
  2. reads 有错配的比对到基因组唯一位置。(可能由于突变造成、也可能是测序错误)
  3. reads 无错配的比对到基因组多个位置。(重复区域)
  4. reads 有错配的比对到基因组多个位置。
  5. reads 比对不到基因组上。(同源性低、测序错误、突变太多等等。。)

短序列比对应用

reads 利用率

覆盖深度与覆盖比率

覆盖深度,coverage depth,也叫做覆盖度、乘数,是指每个碱基被测序的平均次数,是用来衡量测序量的首要参数。

覆盖比率,coverage ratio,覆盖率,指被测序到的碱基占全基因组的大小

一个好的测序,需要具备较高的覆盖比率与覆盖深度。

一般测序会存在高、低覆盖区,这些区域产生的原因可能是由于GC 偏向造成的。
高覆盖深度区域相对来说准确性也更高。

而覆盖比率也可以近似的反映测序序列与参考序列的相似程度,若覆盖比率较高,也就具有较高的同源性。

当测序样品与参考序列为远缘关系时,短序列比对就很难比对到参考序列上。

  • 物理覆盖度包含测序覆盖度
    在PE测序中,测序深度指该位点实际被测序序列覆盖的情况;而物理覆盖度则指位点被多少对reads 跨越的数目。
    物理覆盖度一般用于变异检测。


短序列比对工具

算法

  • 空位种子片段索引法
  • Burrows Wheeler 转换法(最常用)
  • Smith-Waterman 动态规划算法

工具

BWA


bwa是短序列比对中最常用的工具。可以输出bamsam

使用步骤

1.对参考序列构建索引
通用语法:

bwa index [-a bwtsw|is] [-c] <in.fasta>

选项bwtsw 适用于大基因组,一般小于10M的就不适用,比如细菌;而选项is 不适合大基因组,一般大于2G,比如人。

2.对reads 建立索引
通用语法

bwa aln [options] <prefix> <in.fq>

此外还有很多的选项


3.sampe 比对
构建完了reads 与参考基因的索引文件,就可以进行比对。一般双末端选用Sampe。如果是单末端,则选择samse

比对文件会输出为.sam格式。

soup

https://bio.tools/soap
soup,全称short oligonucleotide analysis package。为华大开发的软件工具包。soup 在比对时与bwa 一样,同样采用了bwt 算法。

使用步骤

1.建立索引


2.soup比对
soup 输出结果并非sam,但soup也可以转换为sam格式。

bowtie

与前面两个软件类似,但速度更快,一般应用于RNAseq分析。
但bowtie 也有许多限制,如不支持长度太大片段等。

软件的比较

  • 准确性
  • 内存消耗
  • 速度

注意事项

相关文章

  • 短序列比对及常用文件

    和长序列比对不同,短序列比对有其自身的特点与应用。 就是将测序的reads 重新定位到基因组上,这个过程也叫做回帖...

  • 2020-09-03 Papara 安装

    这个工具可以将短的read比对到已经比对好的长序列比对文件,并且在比对的时候考虑长序列的phylogeny的信息 ...

  • 短序列比对

    项目时间有时候也是需要衡量的一部分指标 According to the paper, bwa mem is ju...

  • 在linux中构建基因进化树

    首先利用muscle进行多序列比对:“muscle -in 序列文件.fasta -out 输出的比对结果文件.f...

  • 基因家族分析(3)进化树构建及美化

    基因家族树构建最常用的方法是 NJ 法和 ML 方法,构建进化树之前,需要进行多序列比对。 多序列比对 多序列比对...

  • bowtie的ASCII报错

    在使用bowtie进行短序列比对时,有时会出现ASCII报错的问题 这是因为bowtie不支持压缩文件的比对,所以...

  • TBtools基因家族分析详细教程(3)基因家族成员的进化分析1

    新建文件夹进化分析1 包括1多序列比对与可视化Mega(Muscle)进行序列比对,JalView进行多序列比对结...

  • 生物数据格式 - SAM/BAM

    格式 sam文件是短序列比对生成的文件,是二代测序中最核心的文件。在RNAseq,变异检测等分析中,都需要首先生成...

  • Bowtie: Error: reads file does n

    使用Bowtie进行短序列比对,代码如下 报错 查看参数发现其中-q参数为 并未说是.fq.gz,将原始文件进行解...

  • bam&sam文件浅析

    1. sam 和 bam 背景知识 现在最流行的短序列比对软件就是bwa 和 bowite2,而sam文件就是通过...

网友评论

      本文标题:短序列比对及常用文件

      本文链接:https://www.haomeiwen.com/subject/jkrztktx.html