what is bam
bam(或者是sam,cram)文件,是比对后拿到的文件,sam文件是纯文本,非常占用存储空间,bam是sam的二进制格式,cram则是进一步压缩后的格式,这三者所记录的内容是一致的,但是bam文件是最常用的。记录了每一条reads比对到参考基因组的结果,主要有11列比较重要的信息(每一列以制表符分开):
bam文件的格式,如今我们的染色体那一列没有chr了,只有数字更多的说明可以查看官方教程:
https://samtools.github.io/hts-specs/SAMv1.pdf
取小bam
由于原bam文件特别大,下载到本地载入igv非常耗资源,所以我们就提取一个小的bam进行演示。首先,要构建索引,提取小bam,这里我们提取17号染色体的信息:chr17。再对小bam文件构建索引,因为igv要求bam文件需要带索引才能载入。
以case1_biorep_A_techrep.bam
为例
我的所有的bam文件
case1_biorep_A_techrep_WES.bam case4_techrep_2_WES.bam
case1_biorep_B_WES.bam case5_biorep_A_WES.bam
case1_biorep_C_WES.bam case5_biorep_B_techrep_WES.bam
case1_germline_WES.bam case5_biorep_C_WES.bam
case1_techrep_2_WES.bam case5_germline_WES.bam
case2_biorep_A_WES.bam case5_germline_WES.sam
case2_biorep_B_techrep_WES.bam case5_techrep_2_WES.bam
case2_biorep_C_WES.bam case6_biorep_A_techrep_WES.bam
case2_germline_WES.bam case6_biorep_B_WES.bam
case2_techrep_2_WES.bam case6_biorep_C_WES.bam
case3_biorep_A_WES.bam case6_germline_WES.bam
case3_biorep_B_WES.bam case6_techrep_2_WES.bam
case3_biorep_C_techrep_WES.bam CCDS.current.txt
case3_germline_WES.bam hg38.exon2.bed
case3_techrep_2_WES.bam hg38.exon.bed
case4_biorep_A_WES.bam nohup.out
case4_biorep_B_techrep_WES.bam qualimap/
case4_biorep_C_WES.bam stat/
case4_germline_WES.bam
(wes) 09:42:42 jiarongf@172.16.10.223:/data1/jiarongf/learning/cancer-WES/4.align
$
samtools index case1_biorep_A_techrep_WES.bam
(wes) 09:50:55 jiarongf@172.16.10.223:/data1/jiarongf/learning/cancer-WES/4.align
$
samtools view -h case1_biorep_A_techrep_WES.bam 17 | samtools view -Sb - > small.bam
(wes) 09:56:40 jiarongf@172.16.10.223:/data1/jiarongf/learning/cancer-WES/4.align
$
samtools index small.bam
(wes) 09:57:31 jiarongf@172.16.10.223:/data1/jiarongf/learning/cancer-WES/4.align
$
天,一个就跑了八分钟,感觉要很久,小的那个bam好像还行
对比一下大小,如果还觉得太大,上面提取的参数chr17可以改为类似chr17:42850000-42950000。
载入IGV
http://software.broadinstitute.org/software/igv/download
IGV下载官网
然后把小bam文件及其索引下载到本地,打开IGV,加载hg38参考基因组,然后把bam文件拖到IGV窗口中。
导进去的话直接拖进去就好了,默认IGV的参考基因组是人19的,我们要选择hg38的,所以搜一下就行,这里还有GATK专用的基因组,这用的是hg38的,导进去会发现不显示序列reads是因为IGV默认30bp以下的才会显示,所以直接选择17号染色体以后直接点+,一致到bp小于30,就和上述的一样的了。
定位到感兴趣的位置
也可以在搜索框中输入感兴趣的位置或者基因,比如chr17:42,850,644-42,853,784或者AOC3
基因名写错了,点击go就是上图所示
可以看到在该基因的区域,有多少reads覆盖了,
coverage
Coverage即覆盖深度,可以直观的看出染色体的每一处reads的覆盖情况,因为我们是外显子捕获测序,所以极大部分的reads都覆盖到了参考基因组的外显子区域及其侧翼区域。值得注意的是在这一行开头有峰的高度范围,且默认是随覆盖深度动态变化的。
这个下面其实还有一行是Junctions,一般用于转录组数据,可以看可变剪切,默认是不显示的。
bam文件中reads详细信息,每一块代表一条reads,将鼠标放到某一条reads上,就会呈现该reads的详细比对信息,与bam文件的中信息相对应。而且可以通过鼠标右键,调出设置菜单,方便进一步探索。
sequence,参考基因组的序列碱基信息,当放大至一定程度时就会显示出来。
参考基因组注释信息,可以看到有基因、外显子、内含子、5'UTR、3'UTR等,还可以右键选择显示基因的各个转录本。
颜色代表的含义
可以看到,这些reads大多数是灰色的,部分是透明,少部分是红色、蓝色、棕色等等,不同的颜色有不同的含义。
灰色:指的是比对成功,没有其他特别的含义
白色:指的是比对失败,对应的是bam文件中第5列,MAPQ比对质量值,我们把鼠标放到透明的reads上就可以看到
红色和蓝色:igv会根据配对的两条reads的距离,即bam的第9列TLEN,可以理解为测序时文库插入片段长度,来判断是否存在染色体的结构变异deletions,insertions,inter-chromosomal rearrangements。红色代表插入片段大于期望值,可能是deletions的证据,蓝色代表插入片段小于预期,可能是insertions的证据。我们可以通过右键选择view as pairs来进一步理解这个含义。蓝色的两条reads重叠,而红色的reads距离都比较大
其他颜色:指的是这条reads所配对的另一条reads没有比对到同一条染色体,不同颜色代表不同染色体,具体看下图:
比如下面棕色的reads,代表与之配对的reads比对到了11号染色体上了:
教程的
我怎么感觉这些不同的颜色是突变的碱基
的是要片段的颜色才行,不是一条的
我们可以通过bam文件来检验一下,因为是pair-end,所以id号相同,可以grep 89335031:
$ samtools view -h case1_biorep_A_techrep.bam chr11 | grep 89335031
case1_biorep_A_techrep.89335031 65 chr11 96427099 60 76M chr17 42852401 0 AAATTGAATCTGCAATTTCTCAACCCATTAAATTGTTCATCAATGCTGAACTAATACAAGAGTTACATTAATAAGC @>>??G?@AEDEDCAAAADCECADBBCAAABA?@FAAECAEBA@EEDCAADDABAADCBEAF@A@EC@@=A@>@DD NM:i:0 MD:Z:76 MC:Z:76M AS:i:76 XS:i:19 RG:Z:case1_biorep_A_techrep
$ samtools view -h case1_biorep_A_techrep.bam chr17 | grep 89335031
case1_biorep_A_techrep.89335031 129 chr17 42852401 60 76M chr11 96427099 0 GCTTCCAAGGAGAAAGACTAGTTTATGAGATAAGCCTCCAAGAGGCCTTGGCCATCTATGGTGGAAATTCCCCAGC @@@?DDCAFCAEABAE@DC@E@@@@ADAFAAAAEEBCDCBAFAFDECDAFDEDBAEDBBFD@GD@AAA@E@CA@DD NM:i:0 MD:Z:76 MC:Z:76M AS:i:76 XS:i:0 RG:Z:case1_biorep_A_techrep
关于颜色更多的介绍,请参考igv官方文档:
http://software.broadinstitute.org/software/igv/interpreting_insert_size
文章还有这一部分,我就不做了,应该是对的,搜寻的未知是点开的小窗口中的第一行read name的那个数字
不同组学的测序策略不同,这里展示的是外显子组的bam文件,还有其他组学的bam文件也可以在igv中可视化,对此推荐大家看一下不同组学测序数据拿到的bam文件在igv可视化结果的区别:各种NGS组学数据分析异同点视频讲解
介绍到这里只讲了一部分,还有bam文件载入igv也可以看变异位点,SNP和INDEL,这部分我们留到后面分析拿到vcf文件后再继续讨论。
下一期我们将走gatk最佳实践流程,并且会详细介绍每一步分析的原理以及需要注意的细节。
上面也是一些教程的内容,在此进行记录
网友评论