- 62.《Bioinformatics Data Skills》之
- 28.《Bioinformatics-Data-Skills》之
- 18.《Bioinformatics-Data-Skills》之
- 19.《Bioinformatics-Data-Skills》之
- 【shell笔记>生信|专项】生信数据处理技能手札(3):
- Bioinformatics Data Skills
- 17.《Bioinformatics-Data-Skills》之
- 25.《Bioinformatics-Data-Skills》之
- 25.《Bioinformatics-Data-Skills》之
- 23.《Bioinformatics-Data-Skills》之
继上小节介绍完SAM文件头部格式后,这里介绍一下SAM文件的具体内容。SAM文件包含11个必要的列与可选的其它列。继续以celegans.sam
文件为例,由于每行的内容过宽,采用tr
命令将每列换行展示:
![](https://img.haomeiwen.com/i26375250/00489abbbadcbbff.png)
解释:
- QNAME,代表read的名字
- FLAG,位标志名,包含关于比对的信息,此信息会在下一节具体介绍
- RNAME,比对到的参考基因组所在染色体,此信息必须为头部@SQ出现的信息,未比对到则为“*”
- POS,比对到的基因组位置,从左到右以1开始,未比对到为0
- MAPQ,read比对质量,此信息非常重要,下游分析通常会过滤掉比对质量低的read,此信息在下一节具体介绍
- CIGAR,特殊的格式用于描述对比(base匹配,插入/缺失,修剪等),此信息在下一节具体介绍
- RNEXT,PNEXT,分别代表双末端测序read另一端的染色体名与序列位置,染色体与一端相同的话为“=”,不可获取的话为“*”,序列位置不可获取的话为0
- TLN,双末端测序read的模板长度,最左端为前缀负,最右端前缀为正,其它情况不定义前缀
- SEQ,具体的序列
- QUAL,序列质量,这与之前介绍的FASTQ文件一致
网友评论