用Circos华丽地展现基因组信息,能给论文的锦上添花。很多做基因组分析的文章必有一个点就是展示基因组的圈图,目前的去比较好实现这种可视化的一般依靠perl语言(最原始的版本),R语言和
0、为什么要做圈图
- 唬人,华丽(不是);
- 更好的展现基因组结构及想要突出的信息;
- 更好地展现基因组之间的差异和隐藏的信息;
1、圈图展示的信息
- 展现基因组的结构(正负链)
- 正负链上各自的编码序列,mRNA序列,tRNA序列
- 想突出的基因名称及所在位置
- 比较两个基因组
2、Circos展示基因组的基础例子
例子图一 基因组结构事例图二3、准备文件
-
基因组文件
Fasta,gbk,gff文件
(Prokka注释出来的) -
最好使用Genbank的文件,里面记录了基因的名称起始位点等等
Feature 文件(其实是网站特殊版本的gff文件,此处推荐subline文本编辑器共 5 列,列的顺序没有考究网站可以自动匹配对应名称的列,但是要严格按照网站对列进行命名,可大小写模糊,网站只识别下面的列名) -
Start: 基因起始位置
-
Stop: 基因结束位置
-
Type:编码序列的种类(CDS/mRNA/gene)
-
Strand:记录正链还是负链的信息
-
Name:基因的名字
序列的位置信息,序列种类,名字均可以在gbk中找到
我们还可以在网站上手动添加feature
在网站上添加feature
操作界面
-
1、这是一个上传了fasta之后的基本操作界面,显示了基因组的骨架,和大小。
基本操作界面 -
2、添加track
track的添加
-
3、添加标题
标题的设置和位置的调整 -
4、调整骨架
隐藏骨架
骨架调整前
是不是清爽多了呢
-
5、隐藏Label
Label隐藏前、
4、 网站可以做的程序
-
在网站上直接prokka注释,可以得到gff的文件(不会Prokka注释的小伙伴不担心);
-
在网站上跟的序列做blast(还可以进行一定的筛选),两两之间的比较基因组学;
-
计算GC%含量 (GC% content);
-
计算GC偏移(GC% skew);
评价
- 总体来说,足够傻瓜,新手友好;
- 能在网站上手动添加feature的信息;
- 美中不足 👉🏻还是不能像Circos这个可视化软件一样把多条基因序列堆叠起来,一次仅能展示一条基因组的信息;
- 不支持和弦图;
- feature文件的设定过于严谨;
- 个性化的设置依然受到限制;
- 开放阅读框显示的legend不分正负链(若是上传fasta文件就会有正负链各有三条信息)
- 基因组的展示效果欠佳;
- 网站经常要排队;
网站地址:
网站非常简洁易学好懂,入门门槛在文本数据的提取,将放在另外一篇日志记录
-
PS
:未来会出一篇传统的Circos从基础文件准备
网友评论