MADS基因家族分类

先查看文献，了解大概MADS基因家族分类，如下图

image.png

参考文献：王力娜, 范术丽, 宋美珍, et al. 植物MADS-box基因的研究进展[J]. 生物技术通报, 2010, 000(008):12-19.

在NCBI中下载拟南芥中MADS的几段蛋白质序列，在TAIR中BLASTP找到相似序列（E-value均小于10^-5）。再TAIR - TOOL - Bulk Data Retrieval中批量下载，如图

image.png

再在SMART批量搜索以上序列是否含有MADS结构域。其中AT1G77080.2, AT4G09960.3, AT3G57390.3, AT5G51870.2, AT5G23260.4, AT5G51870.4不包含MADS结构域，已将其剔除。有可能是假基因（？）

image.png

除SMART可以预测结构域外，pfam和NCBI的CDD也可以。
（在删未能匹配到的序列之前，忘记用其他软件验证）我尝试用PFAM的结构域预测发现剩下的93条蛋白质序列皆能match到MADS结构域。

image.png

MADS全基因组表达序列基因家族鉴定分类

注释

本次下载的MADS基因家族蛋白质序列皆为已被注释序列，不需要再进行注释，但为了解注释流程，学习了KEGG自动注释。

利用KEGG(KAAS)进行注释。
KEGG Automatic Annotation Server，KEGG数据库的自动注释服务简称KAAS。在线网址为：http://www.genome.jp/tools/kaas/
说明书：https://www.genome.jp/kegg/kaas/help.html
进入KEGG中自动注释工具界面，KAAS(http://www.genome.jp/tools/kaas/)，如图，点击KAAS job request(BBH method)

image.png
跳转到KAAS参数设置页面，如图，首先选择合适的比对算法，KAAS提供BLAST，GHOSTX，GHOSTZ三种，其中BLAST算法分别适用核酸及氨基酸序列，比对结果最精确，但该方法是比对速度最慢的，所以这是一个质量和效率的选择，快速高效较准确的可以选择中间的GHOSTX的比对方法。
接下来可以输入核苷酸/氨基酸序列或者.fasta文件，若输入核苷酸序列需要勾选nucleotide

image.png
接下来命名自己的该工作名，输入邮箱地址，选择比对数据库（原核/真核/both），大约人工选择25个物种为宜。选的物种越接近、相关，注释结果越准确。

image.png

接下来选择比对方式

KO assignment methods may be performed based on the bi-directional best hit (BBH, default) or single-directional best hit (SBH).
The computation of the BBH-based method takes about twice as much as that of SBH-based one. However, the BBH-based method will be more accurate than SBH-based one, if the query sequences is from a complete or draft genome. If the number of query sequences is very large such as those from metagenomes, then the SBH-based method should suffice (and save time).
KO分配方法可以基于双向最佳命中(BBH，默认)或单向最佳命中(SBH)执行。
基于bbh的方法的计算量大约是基于sbh的方法的两倍。但是，如果查询序列来自一个完整的或草图的基因组，那么基于bbh的方法将比基于sbh的方法更准确。如果查询序列的数量非常大(比如来自宏的查询序列)，那么基于sbh的方法应该足够了(并且可以节省时间)。

我选择了BBH。