MADS基因家族分类
先查看文献,了解大概MADS基因家族分类,如下图

参考文献:王力娜, 范术丽, 宋美珍, et al. 植物MADS-box基因的研究进展[J]. 生物技术通报, 2010, 000(008):12-19.
在NCBI中下载拟南芥中MADS的几段蛋白质序列,在TAIR中BLASTP找到相似序列(E-value均小于10^-5)。再TAIR - TOOL - Bulk Data Retrieval中批量下载,如图

再在SMART批量搜索以上序列是否含有MADS结构域。其中AT1G77080.2, AT4G09960.3, AT3G57390.3, AT5G51870.2, AT5G23260.4, AT5G51870.4不包含MADS结构域,已将其剔除。有可能是假基因(?)

除SMART可以预测结构域外,pfam和NCBI的CDD也可以。
(在删未能匹配到的序列之前,忘记用其他软件验证)我尝试用PFAM的结构域预测发现剩下的93条蛋白质序列皆能match到MADS结构域。


MADS全基因组表达序列基因家族鉴定分类
注释
本次下载的MADS基因家族蛋白质序列皆为已被注释序列,不需要再进行注释,但为了解注释流程,学习了KEGG自动注释。
利用KEGG(KAAS)进行注释。
KEGG Automatic Annotation Server,KEGG数据库的自动注释服务简称KAAS。在线网址为:http://www.genome.jp/tools/kaas/
说明书:https://www.genome.jp/kegg/kaas/help.html
进入KEGG中自动注释工具界面,KAAS(http://www.genome.jp/tools/kaas/),如图,点击KAAS job request(BBH method)

跳转到KAAS参数设置页面,如图,首先选择合适的比对算法,KAAS提供BLAST,GHOSTX,GHOSTZ三种,其中BLAST算法分别适用核酸及氨基酸序列,比对结果最精确,但该方法是比对速度最慢的,所以这是一个质量和效率的选择,快速高效较准确的可以选择中间的GHOSTX的比对方法。
接下来可以输入核苷酸/氨基酸序列或者.fasta文件,若输入核苷酸序列需要勾选nucleotide

接下来命名自己的该工作名,输入邮箱地址,选择比对数据库(原核/真核/both),大约人工选择25个物种为宜。选的物种越接近、相关,注释结果越准确。

接下来选择比对方式
KO assignment methods may be performed based on the bi-directional best hit (BBH, default) or single-directional best hit (SBH).
The computation of the BBH-based method takes about twice as much as that of SBH-based one. However, the BBH-based method will be more accurate than SBH-based one, if the query sequences is from a complete or draft genome. If the number of query sequences is very large such as those from metagenomes, then the SBH-based method should suffice (and save time).
KO分配方法可以基于双向最佳命中(BBH,默认)或单向最佳命中(SBH)执行。
基于bbh的方法的计算量大约是基于sbh的方法的两倍。但是,如果查询序列来自一个完整的或草图的基因组,那么基于bbh的方法将比基于sbh的方法更准确。如果查询序列的数量非常大(比如来自宏的查询序列),那么基于sbh的方法应该足够了(并且可以节省时间)。
我选择了BBH。

点击compute后,邮箱会收到确认邮件,点击summit网址即可确认提交,跳转的窗口也有一个网址,即结果网址,点进去就可知道结果。当“stage”处于"compete"时会出现html & text 点击html查看结果。
建树
软件:MEGA

但是这个建树并没有将MADS基因家族的不同类型分类,待研究...

像这样
网友评论