基因家族生物信息学分析
(1)基因家族分析概述
旁系同源基因
基因家族可通过基因复制进行物种特异性扩增,主要有染色体片段复制、串联复制和反转录子转座等三种形式,可能导致功能丢失、获得新功能和亚功能化。
(2)家族选择和验证试验
在选定物种和基因家族后,我们常规的基因家族生物信息学分析内容包括成员鉴定、结构域分析、进化分析、表达分析等。
(3)方案设计:验证试验
常见的验证实验包括基因家族在不同组织中、不同处理条件下的表达模式分析(可使用已发表转录组数据或荧光定量分析),基因家族基因表达量与表型相关性分析,亚细胞定位实验,家族成员在该模式物种中过表达或功能互补验证,家族成员在该物种中功能互补或敲除验证,家族成员调控或互作基因实验验证等。
(4)基因家族成员鉴定
1.下载基因组组装序列文件(cDNA或蛋白文件)以及注释文件Gff3文件
https://phytozome.jgi.doe.gov/pz/portal.html
http://plants.ensembl.org/index.html
2.Blastp和HMMER两种方法鉴定基因家族成员,获得候选蛋白序列后比对Pfam数据库,含有保守结构域的基因即为家族基因成员。
(5)基因结构分析--家族特征分析之一
指分析家族各成员的外显子、内含子和 UTR 等在基因序列上的数目、长度和分布情况。
GSDShttp://gsds.cbi.pku.edu.cn/
需要根据基因ID从基因组注释文件GFF3中提取注释信息
(6)基因家族Motif分析--家族特征分析之一
指从家族成员的蛋白序列中找到保守的短序列(motif)。
MEMEhttp://meme-suite.org/tools/meme
Motif 序列通常与该家族特异性功能密切相关,且通过家族成员包含的 motif 情况可对家族进行进一步的亚分类。
(7)亚细胞定位分析
指预测基因家族成员在亚细胞结构上的分布情况,是研究基因家族成员分子功能和生物学功能的基础。
ProtComp 9.0http://linux1.softberry.com/berry.phtml
(8)染色体定位分析
指将基因家族在染色体上的位置标注出来,并可视化呈现。
MG2Chttp://mg2c.iask.in/mg2c_v2.0/
(9)基因复制分析
基因家族是由一个祖先基因通过基因复制产生两个或多个拷贝,从而发生分化而产生的一组基因。
MCScan
(10)进化分析
1.选择序列集合。可选择该物种基因家族,或该物种属内、科内近缘物种基因家族,或可添加模式物种基因家族。
2.在序列选择上,较常见的是用全长蛋白序列构建系统进化树,也有少部分用蛋白保守结构域序列来构建。
3.ClusterW进行多序列比对(meg格式文件)--MEGA构建系统进化树(nwk格式文件)--ITOL(http://itol.embl.de/)优化
(11)表达分析
1.进行表达数据集的选择,不同组织表达分析,不同特异表达分析,不同处理表达分析,
2.根据FPKM值绘制热图 Heatmapperhttp://www2.heatmapper.ca/expression/
网友评论