美文网首页生物信息数据科学
62.《Bioinformatics Data Skills》之

62.《Bioinformatics Data Skills》之

作者: DataScience | 来源:发表于2021-08-31 19:39 被阅读0次

继上小节介绍完SAM文件头部格式后,这里介绍一下SAM文件的具体内容。SAM文件包含11个必要的列与可选的其它列。继续以celegans.sam文件为例,由于每行的内容过宽,采用tr命令将每列换行展示:

图1 SAM文件内容

解释:

  1. QNAME,代表read的名字
  2. FLAG,位标志名,包含关于比对的信息,此信息会在下一节具体介绍
  3. RNAME,比对到的参考基因组所在染色体,此信息必须为头部@SQ出现的信息,未比对到则为“*”
  4. POS,比对到的基因组位置,从左到右以1开始,未比对到为0
  5. MAPQ,read比对质量,此信息非常重要,下游分析通常会过滤掉比对质量低的read,此信息在下一节具体介绍
  6. CIGAR,特殊的格式用于描述对比(base匹配,插入/缺失,修剪等),此信息在下一节具体介绍
  7. RNEXT,PNEXT,分别代表双末端测序read另一端的染色体名与序列位置,染色体与一端相同的话为“=”,不可获取的话为“*”,序列位置不可获取的话为0
  8. TLN,双末端测序read的模板长度,最左端为前缀负,最右端前缀为正,其它情况不定义前缀
  9. SEQ,具体的序列
  10. QUAL,序列质量,这与之前介绍的FASTQ文件一致

相关文章

网友评论

    本文标题:62.《Bioinformatics Data Skills》之

    本文链接:https://www.haomeiwen.com/subject/ikzziltx.html