欢迎关注”生信修炼手册”!
对于疾病或者肿瘤相关的转录组数据,除了进行基础的差异分析外,还可以从可变剪切,融合基因,SNP等各种角度挖掘相关的信息,本文主要介绍下转录组中的融合基因鉴定。
首先我们要搞清楚什么是融合基因,示意图如下
在DNA水平上,由两个或者多个基因共同组成的新基因。称之为融合基因,在RNA水平上,由多个转录本构成的转录本称之为融合转录本。广义上,将这两者都称之为融合基因。
在这里由一点必须清楚,对于融合转录本而言,在DNA水平上不一定存在对应基因的融合现象,这也是为什么会通过RNA-seq来研究融合基因。DNA水平上的基因融合是一种非常罕见的结构变异,而转录本水平的融合则相对而言常见的多,所以利用DNA数据,即使你做的是全基因组测序,融合基因的检出率也非常的低。
第二个需要理解的的就是NGS中如何鉴定融合基因,融合基因是由多个基因构成的,所以其reads也会比对到不同的基因上,在实际鉴定中,对于主流的双端测序,会用到如下两种情况的reads
灰色部分的reads就认为是候选的融合基因对应的reads, 这两种reads有一个共同点,就是对应的fragment都覆盖了融合基因的连接点,即第一张示意图中的junction point, 只有这样的reads才能够作为融合基因的证据。
其中,如果R1或者R2中的一条reads位于连接点两侧,这样的fragment我们称之为split reads, 如果R1和R2两条reads本身都没有覆盖到连接点,只是其比对的位置位于两个不同的基因上,这样的fragment我们称之为spanning reads。
在这两种reads中,由于split read中直接检测到了覆盖到连接点的reads, 所以其说服力更强,而spanning reads只能间接表明是一个潜在的融合基因,其解释性稍弱。实际分析时,会统计这两种reads的个数,个数越多,是一个真是的融合基因的可能性越大。
当然不同的软件中,给出的上述两种reads对应的名词并不一样,但是本质是完全相同的。
目前融合基因鉴定的工具也非常的多,简单列举几个
-
BreakFusion
-
Chimerascan
-
EricScript
-
FusionCatcher
-
FusionHunter
-
FusionMap
-
JAFFA
-
MapSplice
-
nFuse
-
SOAPfuse
-
Tophat-Fusion
-
STAR-Fusion
如此多的工具,可见该领域研究的广泛性和热度。也有非常多的文章评估不同软件的鉴定效果,但是结论都大不一致,其中FunsionCatcher
, STAR-fusion
都曾被评为最佳。我认为这和数据相关的,不同数据得出的结论也会不一样,所以保险的做法还是用多个软件同时分析。在后续文章中会介绍每个软件的详细用法。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!
网友评论