chromosome---基因家族成员在染色体上的分布及共线性图

作者: 许东 | 来源:发表于2021-08-22 11:25 被阅读0次

chromosome---基因家族成员在染色体上的分布及共线性图
【名词解释】synteny / collinearity / i
基因家族分析（五）
生信小白如何在半年收到核心期刊录用证明顺利毕业！！！（基因家族成
2022年喜欢的100个R包--（一）gggenes
基因家族分析（7）种内共线性分析及circos绘图
绘制基因家族在染色体上的分布图
基因家族分析五(基因家族在染色体上的位置图)
peaks 密度图
基因预测，你有考虑串联重复基因吗？

首先介绍如何在染色体上标注基因家族成员位置。先上图：

基因家族成员在染色体分布

要实现这个图需要准备两个文件，一个基因组格式化的fai文件，该文件的获取在：

格式化基因组序列文件

需要注意的一点是，有些同学可能动过了自己的基因组文件或者有些同学基因组序列文件太大（>3 G）。在格式化的时候可能会报错，这个时候需要同学们对基因组序列文件做一个处理，所用到的功能就是旁边那个按钮“if there is an error (1,2)”。之后将重新生成的基因组序列文件再次导入相应位置以便产生fai文件。这个文件放在了与基因组序列文件的同一文件夹下。

再一个是由gff或者gtf等文件而来的基因家族位置信息文件，其格式如下：

家族成员位置信息

这个文件的获取可以在gff等文件中直接查找，如果成员较多也可以借助SPDE的文件提取功能进行，或者借助本模块的格式化操作功能进行。因此，需要在这里为同学们普及一下gff文件的相应知识，如下：

标准的gff文件

第一列是染色体ID，第二列意义不大，第三列就是它后面这个片段是什么，比如标记mRNA的就是整个基因转录起始和终止的位置，exon是外显子等，第四列是该片段的起始位置，第五列是该片段的终止位置，第六列是一个得分，第七列是该基因在正链还是负链上，最后是基因ID以及其他一些信息。

可以在 hmmsearch（可参看本专题先前文章）以后根据ID直接在gff文件中直接查找；成员多时，可使用如下功能：

根据关键字查找

通过输入关键字“gene”/"mRNA"等先把这些信息提取出来，之后把基因ID整理到一个文件里，然后从提取的这些信息中批量操作即可。之后，将不需要的部分删除即可。

第三种方法是借助为本模块设置的格式化功能进行：

提取gff信息

其操作模式与之前相同，用户需要根据软件界面提供的信息进行操作。

在文件准备好之后，输入到相应位置即可

各个文件的位置

之后点击draw即可生成相应图，其中在左侧出现的ID是位于负链上的成员而在右侧出现的ID则是位于正链上的成员。需要补充的一点儿是由于同学的基因组组装水平是在scaffold或者contig水平的，这个时候所谓的染色体会非常多，但考虑到排版的美观，SPDE每一次出图只展示14条片段，如果展示太多了就太拥挤。如下图所示：

每次最多14条染色体

可以看到当14条染色体的时候间距还是可以的，但再增加，还要考虑安放基因家族成员的位置，这时就不太美观。当然考虑到一些特殊情况，当多于14条片段时，同学们可以考虑用一组图来表示。也就是需要把fai文件和家族成员的位置文件相应拆开就好。

加下来时染色体共线性图：

染色体共线性

要完成上面的图需要做两种文件类型的准备。一个时bed文件，该文件的生成在：

bed文件的生成

另一个是共线性文件。而共线性文件的生成又要准备两个文件：一个是gff文件；一个是blast文件。blast文件在这里：

diamond比对

需要用蛋白序列进行比对。在最新版本的SPDE中改进了程序，使blast文件生成的时间成本大大缩短，以拟南芥蛋白文件（32 兆）进行自身比对，用时仅为48 S。gff文件的生成则在

共线性gff文件的生成

两个文件准备好后，在Alignment/hmmer模块生成共线性文件

共线性文件的生成

之后，将生成文件进行格式化

格式化生成的共线性文件

上述过程后就可以开始绘图了

共线性界面

还是按照先前几章所叙述的方式在该放入文件的地方放入文件，有几点需要注意的地方：

注意的点

1、大家对文件命名尽可能简单，并且在物种名那个地方填入相应名称；2、填写完成后点击提交，即“submit”，此时会在下面的框中出现提交的内容，第一个框还好说，第二个框需要注意删除你bed文件中并不需要展示的染色体或者片段，否则图没法看；3、注意选择保存类型，即“choose save type”；4、尽量将结果保存在一个空文件夹里，如上图所示，在那个框需要填入一个文件夹的名字。完成分别点击“to layout file”以及“to seqids file”,之后点击draw即可，绘制的图片将存在于你设定的文件夹里

需要补充的一点是在做共线性图的时候往往需要对某些基因进行强调，一般会使用不同颜色的线进行标注。在SPDE中添加标注的方法是：