2023.4.14
本文记录从Genome-wide analysis of cytochrome P450 genes in Citrus clementina and characterization of a CYP gene encoding flavonoid 3′-hydroxylase文献中总结的基因家族分析步骤。这篇文章包含生物信息学分析和分子生物学试验,是典型的“干湿结合”,其文章结构和思路值得借鉴。本文主要记录生物信息学分析部分,包括柑橘中CYP基因的鉴定、蛋白的物理化学功能预测、预测亚细胞定位、进化树的构建、保守motif分析、基因结构分析、共线性和基因复制分析、启动子分析。
柑橘中CYP基因的鉴定
准备工作:从Phytozome v13 https://phytozome-next.jgi.doe.gov/info/ Cclementina_v1_0
下载最新柑橘基因组。
1.从PFAM下载CYPs保守结构域对应的隐马尔可夫模型(HMM),使用HMMER(evalue=0.1)对柑橘蛋白数据库进行HMM搜索。
2.下载拟南芥中CYPs基因的氨基酸序列,作为query序列,在柑橘蛋白数据库进行本地Blastp搜索(e-value=1e-5)。
3.将以上两步得到的序列合并,去除重复。
4.通过NCBI Conserved Domain Database toolhttps://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
验证序列保守结构域,得到柑橘中所有的CYPs基因。
蛋白的物理化学功能预测
5.利用ExPASy https://web.expasy.org/protparam/
中的ProtParam工具计算CYPs的各种物理和化学参数,包括氨基酸数量、分子量、理论等电点、不稳定性指数、脂肪族指数等等。
预测亚细胞定位
6.利用BUSCAhttp://busca.biocomp.unibo.it/
预测CYPs的亚细胞定位。
进化树的构建
7.使用MUSCLE或ClustalW进行序列比对(根据需要选择比对方式)(ClustalW的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,是一种经典的比对方法,使用范围也比较广泛。Muscle的功能仅限于多序列比对,它的最大优势是速度,比ClustalW的速度快几个数量级,而且序列数越多速度的差别越大)。
8.使用trimAl自动去除排列不齐的区域(这里也可以使用TBTools中的Trimmer快速修剪工具Quick Run TrimAL工具)。
9.使用MEGA或IQ-TREE(最大似然法/邻接法)构建进化树,使用ITOLshttps://itol.embl.de/
美化。
保守motif分析
10.使用MEMEhttps:// meme-suite.org/meme/tools/meme
识别CYPs保守motif基序(参数:number of motifs to find = 15; min motif width = 6; and max motif width = 50),,利用TBTools可视化。
基因结构分析
11.从柑橘基因组注释文件(gff3)中获得CYPs基因结构,包括外显子、内含子、CDS和UTR,利用TBTools可视化。
共线性和基因复制事件分析
12.使用MCScanX分析柑橘CYPs基因之间的共线性关系和基因复制事件;使用shinyCircos可视化CYPs基因对的同步区和重复事件。
13.使用TBTools生成基因密度分布,可用shinyCircos可视化。
14.使用TBTools中的Simple Ka/Ks Calculator实现Non-synonymous(Ka)/synonymous(Ks)计算。
15.使用TBTools将柑橘CYPs的基因位点定位到基因组的scaffolds。
启动子分析
16.每条基因ATG前2000bp作为启动子区域,使用PlantCAREhttps://bioinformatics.psb.ugent.be/webtools/ plantcare/html/
预测顺式作用元件,使用TBTools可视化。
网友评论