写在前面
对于没有做过共线性分析的小伙伴,可以通过以下几段内容,了解一下,我为什么要费劲巴拉画出这样一张图。
除了基因组成的相似性, 在不同基因组中基因排列顺序的一致性更能够体现基因组的共同起源, 这种基因排列顺序的一致性称为共线性(synteny, colinearity) 。—— 来源于网络
共线性分析可以分析不同版本基因组间的共线性区域和非共线性区域,找出重组区域,也可以矫正不同基因组在组装过程中出现的错误。—— 来源于网络
而对于一个物种而言,基因组序列的稳定性比转录组序列的稳定性更强健。一个非常明显的事实是,换个组织或者时期测定转录组,那么得到的序列集合就会有所变化,而基因组的往往只存在极小的序列变化。基因组,更多的序列,也提供了更多的生物信息。从其中挖掘出有趣的信息,往往有助于我们日后“定向育种”。而简单的“比较基因组”分析,常常会让我们眼前一亮。 —— 生信札记
本文参考生信札记的文章,里面大致介绍了如何通过TBtools实现共线性可视化,步骤相对简单,我在学习作图的过程中也发现一些需要注意的地方,所以详细记录一下。
正文来了
首先说明,为了保证快速出图,只用拟南芥的三条染色体做一下共线性。大家做不同基因组之间的比对时,也是同理。
1)先来看我们今天要用到的TBtools的功能
首先,使用 OneStep 功能分析基因2)需要准备的数据文件
物种1 - *基因组*序列文件(这里注意,是基因组文件,就是Chr1,blabla,Chr2,blabla这样的文件,.fa) + 基因结构注释信息文件(.gff)
物种2 - *基因组*序列文件 (.fa)+ 基因结构注释信息文件(.gff)
这里我们先针对Chr1和Chr2两条染色体进行分析,打开 One Step MCScanX:
Start变成灰色说明开始了3)出现报错,小场面,不要慌,let it go
让它自己跑就可以,忽略它,因为就算你想关也关不掉4)报错信息没有变化了,但是不一定分析完了,越大的基因组分析的越久,比如我这两条染色体可能就跑了十几分钟。啥时候你点一下TBtools,看到Finished的提示信息,这才真的结束了。
这时候才可以进行下一步操作5)打开分析结果的文件夹,大概有十几个文件。根据文件类型找到我们需要的三个文件,应用 Dual Systeny Plot 进行分析。
文件太多时可根据文件类型进行排序,即可快速找到所需文件 右边的一些选项被挡住了,默认即可 简单的两条染色体的共线性ps. 如果你比对的是全基因组,可根据修改ctl文件,修改展示顺序,或者删掉你不需要的部分。
6)在此基础上,实现多条染色体(多个基因组)的共线性分析。首先明确这个部分需要的三种文件类型,即使在我们先前的分析结果中(Chr1和2比对)也可以找到,所以我们就以此举例。
需要这样的三个文件哦7)由于我们要比对1,2,3,于是我们再根据2-5的步骤,分析Chr1和Chr3的共线性。(为了避免搞混,你可以新建一个输出的文件夹)随后,将上述两部分结果中的genelinks, gff, muiliple文件,利用 Text Merge 进行合并。
Merge三次得到所需的三个文件 三个文件8)应用 Multiple Systeny Plot 进行分析。
建议不要对文件进行修改,容易报错 多染色体(基因组)共线性可视化到此为止,基因组共线性分析与可视化基本可以实现。辛辛苦苦写的,看完点赞哈。
这篇文章主要记录如何分析基因组之间共线性,如果你需求是 两个基因组指定区段的物种相似性 ,那么请你去看这篇文章,CJ大神真的写的非常非常清楚了,同样是保姆级教程,你值得拥有。
网友评论