在做有参测序分析的时候,选择准确合适的基因组是极其关键的,今天来看下人的参考基因组
fasta
文件包含哪几个部分.
以GRCh38
版本的基因组fasta文件为例,我们先看看这个基因组文件里包含哪些序列:
# 查看GRCh38包含哪些序列:
awk '{if($0~">")print $1}' ./Homo_38.fasta> ./tmp.txt
部分结果如下:
![](https://img.haomeiwen.com/i903467/7eed1fb287103061.png)
上图只显示了部分结果,其实远远不止上图这几条,上面这个GRCh38
文件中一共有3366
条序列,前25
条还好理解,就是22
常染色体+X
+Y
+线粒体.但后面的chr1_.*_random
又是什么呢.
人基因组fasta注释文件可以分为以下几部分序列:
-
Primary assembly
,包含以下三部分:
-
Assembled chromosomes:
chr1
-chr22
,chrX
,chrY
和chrM
的序列. -
Unlocalized sequence:以
_random
结尾的序列,表示知道在哪条染色体上,但不知道方向和顺序.
![](https://img.haomeiwen.com/i903467/725fd245de0dd8fe.png)
-
Unplaced sequence:以
chrU_
为前缀的序列,不知道在哪个染色体上.
![](https://img.haomeiwen.com/i903467/1ebf4b9d31863861.png)
-
Alternate contigs, alternate scaffolds或 alternate loci,以
alt
结尾的序列.用来表征单倍体序列的多样性,这是由于基因组是用单倍体类型表现的,比如1号染色体
有两条,但fasta
文件里只有一条的序列,由于基因的多样性(如等位基因)无法通过一条序列表示,所以就有了alt
序列来补充说明. 但这样的alt
序列在测序分析map
的的过程中容易产生multiple-mapping
低质量的reads
.而GATK的ZeroMappingQuality
会将这样的reads过滤掉.
![](https://img.haomeiwen.com/i903467/4662d3ea51037207.png)
-
PAR 区域: 伪染色体序列
(pseudoautosomal region)
,PAR区域的基因在X
和Y
染色体上都存在.但在map
序列时会造成multiple-mapping reads
,所以需要其中一条染色体(如y
染色体)上的PAR
区域mask掉.
![](https://img.haomeiwen.com/i903467/76c31c6f6387b30e.png)
- decoy基因组:包含人疱疹病毒(EBV)基因组的序列.
![](https://img.haomeiwen.com/i903467/1cb0fc8a583fcbfe.png)
关于基因组版本
在下载基因组文件的时候,可以发现即使是GRCh38版本,也有:GRCh38.p6
,GRCh38.p11
等小版本.这里的p是Patchs
指定期对基因组的修补,并且每次修补并没有扰乱染色体位置信息.有两种patch
:
- Fix patches是表示下次主版本发布时将要替换的序列.
-
Novel patches表示上面提到的
alternate loci
.也就是将新的patches看做变异序列.
关于analysis set
在下载基因组文件时,常会看到analysis set
的基因组文件:
![](https://img.haomeiwen.com/i903467/dc80e22c0ff501aa.png)
常用基因组文件只包含上面提到的Primary assembly
,而analysis set
还包含alt序列
,PAR序列
,decoy基因组
.这些对于做基因组变异分析是必须的.可以看出笔者上面用来示范的那个GRCh38
文件是analysis set
.
(更多信息请参考GATK论坛: https://gatkforums.broadinstitute.org/gatk/discussion/7857/reference-genome-components)
更多原创精彩视频敬请关注生信杂谈:
![](https://img.haomeiwen.com/i903467/217ee68caaa654c3.png)
网友评论