内容包括
A.使用ToppFun进行基因列表富集分析
B.使用ToppGene基于训练集基因的功能相似性进行疾病基因优先排序
C.使用ToppNet基于PPIN的拓扑性质对疾病基因进行优先排序
D.使用ToppGenet基于PPIN对种子基因或训练集中的基因进行识别并优先级排序
E.ToppCluster(重点介绍,包括作者文章解读)
----------------------------------------
ToppGene Suite相关论文
2007.12:Improved human disease candidate gene prioritization using mouse phenotype
2008.2:Disease candidate gene identification and prioritization using protein interaction networks
2009.9:ToppGene Suite for gene list enrichment analysis and candidate gene prioritization
2010.2:ToppCluster: a multiple gene list feature analyzer for comparative enrichment clustering and network-based dissection of biological systems
一站式分析:基于功能注释和蛋白相互作用网络的基因列表富集分析,候选基因优先化。
ToppGene是一站式门户工具(网站),可以
- Gene列表功能富集分析
- 使用功能注释或网络分析或两者同时使用进行候选基因优先排序
- 识别和优先化排序novel疾病候选gene(在interactome)
基于疾病候选基因的优先化功能注释使用fuzzy-based相似性方法来计算基于语义注释的任何两个基因之间的相似性。使用统计元分析将来自个体特征的相似性分数组合成总分。测试基因的每个注释的p值是通过从整个基因组随机抽样得到的。 基于蛋白质相互作用网络(PPIN)的疾病候选基因优先化使用社会和网络分析算法(PageRank和HITS算法的扩展版本,以及K-Step马尔科夫方法)。
- 识别和优先化排序novel疾病候选gene(在interactome)
ToppGene Suite应用程序中工作流程和方法的示意图(A)基于其属性或当前基因注释(与疾病,表型,通路,转录因子或GO术语相关的基因)来选择训练集中的基因。 (B)测试集基因来源可以是来自连锁分析研究的候选基因或在特定疾病或表型中差异表达的基因或来自相互作用组的基因。 (C)ToppFun - 基因注释和序列特征的富集terms,即GO:分子功能,GO:生物学过程,小鼠表型,通路,蛋白质相互作用,蛋白质结构域,转录因子结合位点,miRNA-靶基因,基因疾病相关性,药物 - 基因相互作用和基因表达(Gene Expression),并且还用于构建训练集基因谱。 (C和D)ToppGene - 通过与训练集中的富集terms进行比较,为每个测试基因的每个注释生成相似性分数。然后基于十四个相似性分数的总计值计算最终的优先化基因列表。 (E和F)ToppNet - 训练和测试集基因被映射到蛋白质 - 蛋白质相互作用网络。在PPIN中使用全局网络距离测量方法,基于相对于所有训练集基因的相对位置对测试集基因进行得分和排序。
2.png
以下是ToppGene Suite应用程序列表以及使用它们的分步说明指南。
A.使用ToppFun对基因列表进行富集分析
B.使用ToppGene对疾病基因优先性排序(基于训练集基因的功能相似性)
C.使用ToppNet对疾病基因优先性排序(基于PPIN拓扑性质)
D.使用ToppGenet确定PPIN中“种子”或训练集的相邻基因并对其进行优先排序
--------------------------------------------------------------------
A 使用ToppFun进行基因列表富集分析
问题:对肝再生相关基因进行基因列表富集分析
-
1.主页点击第一个链接,ToppFun。。。。。
-
2.按提示输入(有example),可以输入很多类型,提交
1.png -
3.提交后有下面界面,其中correction和p-value部分都可以进行设置。
2.png -
4.如果输入的基因列表包含同义词或别名而不是系统支持的人类基因symbol,会有一个列表出现,可以选择支持的symbol。点击start
-
5.稍等一会就会出现result界面。包括GO:MF,BP,CC,人类表型,小鼠表型,domain,通路,pubmed,interaction,cytoband,TFBP,gene家族,共表达,共表达的atlas,computational,microRNA,药物,疾病等共计18个种类。
B.使用ToppGene基于训练集基因的功能相似性进行疾病基因优先排序
问题:通过和训练集相似的功能注释对测试集基因列表进行优先级排序
现在,我们用来自NCBI的OMIM和Entrez Gene已知的和肝再生相关的基因作为训练集。测试集是我的55434masigpro DEGs。这个case中,NCOR1基因作为候选基因。测试集通过增加在染色体上和NCOR1最近的99个邻居基因产生(99+1=100个测试基因)。
- 1.主页点击第二个链接,ToppGene。训练集输入一开始的肝再生相关基因,测试集输入我的比对过的大鼠的人类同源基因。提交。
-
2.提交后,稍等,会出现一个界面。可以进行参数设置等。
可以选择合适的统计学参数。“random sampling size”选项是从计算p-value值的基因组中选择背景基因集。’min.feature count’代表需要考虑进行优先排序的基因数目。默认选择是基因组中的6%(或者总共25000个基因中选择1500个)进行随机样本大小或feature计数为2.和前面第一部分描述的一样,如果基因list包含别名或重复的,他们就会被忽略或给你一个选项自己来解决。另外,如果在训练集和测试集中有共有基因(也就是测试集中的基因在训练集中也出现了),他们会在测试集中被移除,并且不会被排序。选择合适的统计学参数后(训练集和测试集),点击start,即可
3.png
- 一旦分析完成。结果的第一部分和富集分析的第一部分相似,只是输入的参数部分多了测试集的。下半部分显示测试集基因的优先列表,这是根据他们的p-value排序的。每一列显示的是计算训练集和测试集之间相似性的特征。
C.使用ToppNet基于PPIN的拓扑性质对疾病基因进行优先排序
问题:基于PPIN的拓扑性质对测试集基因列表进行优先排序
训练集还是使用刚才已经获得的肝再生相关基因。测试集也还用刚才那个。
无论测试集还是训练集都匹配到全局性PPIN,然后测试集中的基因基于他们距离训练集中的基因有多近来对他们进行得分。步骤如下
- 1.主页点击第三个链接ToppNet。。。
- 2.和上面一样,输入训练集和测试集,提交
-
3.选择网络优先级参数。有3个选项可以选择。分别是1)K step markov(默认);2)HITS with Priors;3)Page Rank with Priors。也可以选择训练集邻居亚网络可视化参数(默认lever是1),然后点击开始
4.png - 4.接下来,测试集会根据得分进行排序。训练集子网络可以以cytoscape兼容的文件被导出。可选择的,训练集子网络的图形代表也会显示出来。
D.使用ToppGenet基于PPIN对种子基因或训练集中的基因进行识别并优先排序
问题:使用功能相似性(ToppGene)或PPIN分析(ToppNet)对训练集基因的相互作用组中的基因列表进行排序或优先排列。
继续使用已知的肝再生相关基因列表作为训练集。这次的测试集是和训练集的基因相互作用的genes(level 1=immediate interactants)步骤如下
- 1.主页,点击第四个链接ToppGenet
-
2.输入基因名,选择你想考虑的interactome空间,选择你对相互作用基因排序的类型那个,功能相似(ToppGene)还是网络(ToppNet)。如果你选择distance to seeds为1 的话,这以为着测试集包含所有的与训练集中的基因直接相互作用的基因。所有在训练集和测试集中重叠或共有的基因都会在测试集中被忽略,不参与排序。提交
5.png - 3.这个例子中,扩展相互作用组到level1,抓取了376个基因作为测试集(移除了共有基因,也就是在训练集中也出现的基因),最终的测试集一共包含333(376-43)个基因。第一个面板显示了通过PPIN分析得到的优先级(ToppNet),下面的面板显示的基于ToppGene的功能相似性的优先级。
- 4.以前是两个结果同时出现,现在做两次
-----------------------------------------------
E: ToppCluster
作者文章(Y大宽翻译总结)
分析像基因表达谱这样大规模生物数据的最根本的一个问题是:解释鉴定出的基因clusters的功能意义的相对稳定性。不同的gene groups中的和个体基因及共有基因相关的功能注释和分子特征对生物状态,过程或应激等关键的生物特性的识别很有帮助,而这可以提供有用的生物学视角。典型的注释包括GO,生物过程,蛋白-蛋白相互作用,蛋白质结构域信息,有时还有基因-疾病的相关性。很多工具可以对提供的单一基因列表进行富集分析,比如DAVID,FatiGO,g:Profiler等。参考文献4对这些工具做了很详细的描述 。作者下面说了GSEA的成功。然而,随着日益增长的分子和生物学知识,我们鉴定和生物学现象相关的复杂性的提高,一个关键的事情是,我们也需要提高我们的能力来识别和系统功能及调节机制有关的组分,活动和相互作用,比如WGCNA,ARACNE这些应用所做的。同样的,针对当前的知识的有效且高效的数据可视化对新理论也有关键的促进作用。
现在, 我们提出一个直观有效的工具,它可以分析和可视化任何数目的基因集所共有和特有的特征。我们提供一个流程和工具套件,可以对多个基因列表进行协同分析。以这种方式,可以保存两个基因列表之间的关系,同时还提供对多个基因列表中共有的和特有的基因功能和特征进行二次分析的数据文件及聚类。比如,可以比较时间系列基因表达谱实验中不同时间的功能富集分析的差异,也可以是反应不同组织或细胞类型的差异。目前,还没有工具可以进行多个基因列表的分析并提供包括丰富的注释set的功能模块图。这方面的进展在High-Throughput GoMiner (9) andGOEAST中有所体现。然而,这些工具目前仅仅可以做基于GO的富集分析,并且对调节机制,PPI,表型,疾病,小分子和其他类型的分析不敏感。pageMan是个有 创新的应用,它可以同时分析多个微阵列表达谱,并且可以基于五种特意进行热图可视化。
大多数的基因集富集分析工具使用的是超几何检验分布作为统计模型来获取功能term在基因列表中出现的可能性。这里,ToppCluster使用ToppGene中使用的方法评估多个基因列表中的显著性特征。下一步,我们利用热图或网络,两个都是基因组学中比较好的可视化工具产生基因cluster的富集地图。热图非常借助颜色密度值很好的展示数据集。热图中通过用颜色深浅代表富集条目的重要性,我们展示了一个特别简单但有效的方法来一次性可视化生物功能题目(几个基因set中有的。)。另外,我们也提供了可以继续用cytoscape或treeview进行可视化的结果。
为了展示使用方法,我们使用来自Tissue-specific gene expression and regulation(TiGER)数据库中的数据作为输入,产生组织特异和两个组织间共有的功能图。我们显示,ToppCluster可以识别出器官特异性表型关联分析,生物过程,microRNAs的靶Mrna, 谁的启动子包含已知的转录因子的cis-elements(也就是已知的转录因子的启动子顺势作用元件富集分析)。我们的目标是为研究者提供来自大数据集的整合不同知识的basis,以这种方式帮助他们获取一个更深的能力,那就是,对和系统功能有关的通路和机制建模,同时阐明他们的数据和高维度人类基因相关的只是的关系。
ToppCluster典型的例子是时间系列微阵列实验。它最主要的有时在于协同分析多个基因列表的能力,并以促进比较和对比的方式描绘结果。下面这个图是示意图。
Toppcluster有17个注释类型,包括GOBP,MF,CC,小鼠表型,人类表型,通路,转录因子结合位点,预测的microRNAs靶标,pubmed co-citations,protein domains,PPI,cytoband,gene coexpression,expression correlation(‘computational’),drug/chemical,disease。这些信息都可以在toppgene下的database info中找到。用的是超几何检验的方法。最原始的输出是一个矩阵结果,列和每个输入的基因列表有关(比如组织,时间点),rows代表每一个基因列表的富集特征。每个基因列表命名的每一列是其显著性值,它是p-value的负对数。
如果一个给定的特征和多个基因列表有显著性联系,有一种可能是有同样的显著性得分,但是有和这个特征有关的完全不同的基因列表。结果功能富集矩阵可以被等级聚类可视化,也可以热图,也可以输出为cytoscape支持的XGMML网络格式。如果产生热图的选项被选择,功能富集矩阵就是二维等级聚类,先是行然后是列被重新排序,根据相似性得分。在表格格式,对重要性有贡献的特定的基因列表会以邻接表被提供。
这里,我们使用新的方法代表基因列表中富集条目的显著性。我们采取对应于这个条目的p值的负对数(-log10),这样得到的显著性得分都大于0。超过10的任何数值我们都当作10。因此,对应于基因列表的有显著性得分的功能条目都在0和10之间。如果选择了热图,矩阵使用euclidean距离方法进行计算,生成二维等级聚类,通过R链接。
ToppCluster是一个对大规模数据(多时间点微阵列数据,细胞类型,组织类型等)进行多聚类基因功能富集分析的工具。ToppCluster可以对多个genes列表进行协同分析co-analysis,产生丰富的功能地图输出结果,来显示共有的和列表特异的功能特征。结果可以以列表,热图和网络格式可视化,这些工具要么嵌入工具中要么可以被第三方软件支持。T oppCluster使用超几何检验来获得通过ToppGene中可用的基因列表富集分析选项获得的功能富集。
ToppCluster支持一下两种类型输入
1. 作为可以连续添加和标记的分离的基因簇
2.可选择性的,作为基因的两列,第一列是基因,第二列是基因cluster标签。
检验的方法很多选择,比如p-value,cutoff,多种矫正检验方法。一个或多个注释可以在结果中出现,多达17种不同的注释类型。结果也可以通过在注释中出现的最少和最大基因进行过滤。结果可以是表格形式,也可以是逗号隔开的txt,html,excel等。另外也有三种可视化的结果展现方式,用R得到的pdf格式的标注热图,treeview热图或cytoscape支持的网络格式。
Sections
1. The ToppCluster Interface简单介绍
界面友好,选项简单,可以执行可比较富集分析。这里我输入liver regeneration和hcc的名字进行比较分析。各自输入大鼠同源genes和人类基因。大概就是,选择输入的基因类型是ID 还是symbol,输入cluster名字,输入基因,添加第二个cluster,命名,加基因,提交
2.使用ToppCluster
- 2.1 选择想输入的gene身份类型,包括HGNC symbol(official),HGNC symbol and symonyms,entrez ID, Ensembl ID, uniprot。给cluster取名,第一个我取名liverregeneration
- 2.2 粘贴第一个gene cluster列表基因
- 2.3 添加第二个cluster,同上
- 2.4 点击next提交列表基因,进行下一步。
- 2.5 选择各种条件,选择如下选项。
默认是所有的选项都被选择。你可以选择你想包含在输出文件中每个注释的及每个注释的矫正方法,p-value值和genes limits(允许注释的最大和最小genes数目)。可选择的矫正方法包括:
Bonferroni - Sets the significance cutoff to the P-value cutoff divided by the number of tests. For example, if the P-value cutoff is 0.05 and there are 100 tests, the significance cutoff would be set to 0.0005. The Bonferroni correction may be quite conservative, sometimes yielding a high false negative rate.
7.pngFDR- Controlling the False Discovery Rate (FDR), or the expected proportion of false positives among the significant results, is another approach used frequently. FDR correction is less stringent than Bonferroni; it may yield more false positives but much less false negatives.
- 2.6 输出格式选择。Interactive和Batch。前者的结果会在屏幕上显示,或者一旦执行完成就可以被直接下载。后者会把结果发到你的email,包括一些在interacitve中不包含的。
Interactive
- Comma Separated Values - Output data in a CSV file using commas to separate columns.
- Tab Separated Values - Output data in a file using tabs to separate columns.
- HTML Table - Output data in HTML tables to be displayed in a web browser. See section on HTML Table Output Results.
- Network Generator - Output data in an interactive html table where results can be selected and exported to a Cytoscape importable XGMML network file or a static PNG image.
Batch- Comma Separated Values - Output data in a CSV file using commas to separate columns.
- Tab Separated Values - Output data in a file using tabs to separate columns.
- Microsoft Excel Format - Output data to be opened in Excel spreadsheet format.
- Clustered Data (Zipped) - Output data in TreeView importable format in a compressed zip file.
- PDF Heatmap - Output data exported to a PDF file with a heatmap.
- 2.7 run
4.Network Generator Output
最初的Network generator output屏幕显示的是多列和行的列表,比如有分类,ID,Title(or Source),verbose ID,还有很多其他列。
8.pngNavigate导航
Navigate下拉菜单显示了你的扩展的HTML中所有的可获得的注释类型。选择你想跳转的类型,系统会自动定位到你选择的类型。
9.png
Links
这个links区域提供两种选择
.back to start-回到原始的ToppCluster界面
.shareable link-稍后获取结果或和同时分享结果。和link相关的结果会在产生时刻算起保存30天。
Highlighting
这部分提供选择来高亮gene set栏的基因。If p-value被选择的话,所有和pvalue相关的genes会在整个结果界面高亮。如果想高亮,得选中这个框。
Select all
Title旁边的这个复选框,会选择这个页面所有的复选框
10.png
Network Generator
选择了你想输出的结果后,点击Next
11.png
NEXT后,出现保存界面
12.png
Summary:显示你前面界面选择的boxes的数目。可以回到前面浏览器选择更多的boxes
Method:可以产生2种类型的网络
(1)gene level-这是完整网络包括输入的gene list names,富集的特征和相对应的genes
(2)Abstracted-这是一个抽象的试图,将基因排除在网络之外,只保留与输入基因列表名称相关的富集特征,这些特征是通过显著性分数加权的边来实现。
Layout:五种输出方式供选择
- Kamada-Kawai - JUNG implementation of the Kamada-Kawai algorithm.
- Fruchterman-Reingold - JUNG implementation of the Fruchterman-Reingold algorithm.
- Spring - JUNG implementation of the Spring layout.
- Circle - Lay all nodes in a circle (JUNG implementation).
- Meyer's Self-Organizing - JUNG implementation of Meyer's "Self Organizing Map" layout.
File format:3种格式可供选择 - XGMML - XGMML is an XML based graph representation format - compatible with Cytoscape.
- PNG - Network in PNG image format.
- Text - Network data in a simple text format.
Preview:预览
Using XGMML in cytoscape - 打开cytoscape
File-import-network(multiple file types)-import network-select-import
Treeview clusted Data output
13.png
ToppCluster的实际应用
我们使用简单的例子来说明toppcluster的有效性。这是一个组织特异性基因列表数据集。从TiGER数据库下载组织特异性基因列表。选择的是在心脏,肌肉,肝脏,肾脏和胰腺中高表达的genes。从这些数据,我们想基于它们共享的和特异的疾病表型和潜在的调节基质联系来识别和分离组织特异性基因列表。格式化并且做好标签的lists提交到ToppCluster,设定pvalue阈值0.05,FDR矫正方法。我们选择的特征是小鼠表型,micorRNA和转录因子结合位点。重要的是,microRNA没有应用false discovery correction方法,因为它作用的理论不是基于全基因组相关性富集分析,而是关于这个miRNA是否表达和它可能靶向哪些基因的布林真假问题。首先,Abstracted网络选择用来产生cytoscape兼容的网络文件,这包含所有的富集条目关系。下面这个图FIG2A显示了输出的数据在cytoscape使用spring embedded layout和significance-based edge weights功能的结果。共有的和特异表型,micorRNA,和富集的转录因子在图中被标注展示。
17.png 18.png
从上面这个抽象的网络试图,可以看出明确的功能分区。值得注意的是,liver基因列表显示了高度显著性富集以下基因集:异常肝胆形态,下降的血液胆固醇和异常凝血。心脏和骨骼肌共有心机收缩和形态表型,但是在包括异常impulse conducting system,不规则心跳和心脏心房增大,异常肌肉发育和肌肉衰弱的都不同。在两者之间还有共表达的转录因子MEF-2,血清反应因子不一样,但是mir-29a,b,c和mir-100靶向的基因显著富集了。和这个一致,mir-29已经显示是一个重要的心肌纤维化抑制因子。肾脏显示了大量的和肾脏结构和功能异常相关的富集,比如转运相关的特异功能比如分泌和离子运输。转录因子pou3f3,结合在OCT类型转录因子结合位点,在肾脏中过表达。肾脏基因列表也在启动子转录因子结合位点PBX1富集,这个也是调节肾脏发生的。和已有的知识相符,肝细胞核因子HNF1和HNF4也在肝脏和肾脏基因列表中共有。肝脏特异性基因富集在鸡卵清蛋白上游启动子转录因子COUP-TF。这个TF,虽然广泛表达尤其发育中,但是也发现它和HNF-4的结合位点相似。COUP-TF在大多数组织中的表达和它作为肝脏特异性基因orinthine transcarbamylase(OTC)得出这个可能性,它或许在其他组织中作为肝特异基因的抑制因子。胰腺显示了诸如去组织化的胰腺胰岛细胞表型,异常的胰腺发育和胰岛素分泌。肾基因和肝共有循环氨基酸,胆固醇,脂类和矿物质水平表型。胰腺特有的基因显示了转录因子GATA1的富集,这是一个已知的在多种内分泌器官包括胰腺在内的涉及细胞特异性调节的基因。还有一个有趣的是micorRNA miR-190,是胰腺特异的,mir-190已经发现在胰腺癌组织和细胞系中显著上调表达。
为了提供一些条目的详细的基因水平的view,我们选择在肝脏和肾脏基因列表中的表型和转录因子。使用Gene Level 网络选项,生成cytoscape兼容的网络,只显示两个set中共有的genes,表型和转录因子,fig2b。ToppCluster允许用户选择感兴趣的条目包括到网络中。当你想进一步探索output中其中一部分富集条目的时候,这非常有用。这个特征被用于产生fig3,多个categories中富集的条目被选择,基因水平的网络生成了。
以上的应用示例,概括了已有的知识,展示了ToppCluster的能力来梳理多个基因cluster中共有和特异功能和调控元件
含有输入的基因列表的excel文件,cytoscape兼容的文件和网络数据在toppcluster主页的supplementary section可以获取。对应于fig2a的热图view也可以获得。
Figure 3. Gene-level network showing user-selected enriched terms from Gene Ontology, Mouse Phenotype, Co-expression, microRNAs and transcription factors for the kidney and liver-specific gene lists
作者最后结论部分说
在我们看来,跨越多个基因列表的功能关系的可视化的能力,提供了新的机会,以形成关于负责确定生物学状态(包括发育,稳态和疾病病理学)的潜在生物学机制的角色和相互作用的新假设。
下面这张图是我自己的数据做的图,先跑的WGCNA,再做的图
2-26.jpg------------------补充----------------------
Improved human disease candidate gene prioritization using mouse phenotype
基于假说:引起疾病的大多数基因功能上都是相互联系的。
ToppGene(Transcriptome Ontology Pathway Pubmed based prioritization of Genes)
作者第一次,作者把小鼠表型数据作为一个独立于GO,pathways,biomedical literature,protein domains,protein interactions参数特征,对人类疾病候选基因进行优先排序并显示其应用。
作者提取和每一个MP term相关的小鼠基因,并提取相应的人类同源基因。当前MPO版本中,有4280个terms和4329个unique entrez小鼠genes相关(外推到4329个人类同源基因)。我们没有检查是否小鼠gene的人类同源genes会否引起相似的表型。相反,我们假定,同源genes引起同源表型。
Protein domain:
结构域的概念由Wetlaufer于1973年首次提出,他定义结构域为可以自动折叠的稳定的蛋白质结构单位。过去,结构域被描述为,折叠单位,致密结构单位,功能和进化单位。每个定义都是有效的并且经常重叠。紧密结构单位结构域在很多不同的蛋白质中被发现,它在结构环境内容易独立折叠。自然界经常把几个domains结合在一起形成多结构域和多功能蛋白质。在一个多结构域蛋白质中,每一个结构域可以独立行使它自己的功能,或者和它的临近蛋白协调一致的方式行驶。Domains既可以作为模块构建大的复合体像病毒颗粒或肌纤维,也可以提供特定的催化或结合位点,这些都在酶或调节蛋白中被发现。
Motif和domain的区别
完全不同的两个概念,但有时还有联系。
Motif:在生物学中是一个基于数据的数学统计模型,典型的是一段sequence也可以是一个结构,是特定的group的序列预测,例如一个DNA sequence可以定义为转录因子结合位点,也就是序列倾向于被这种factor结合。对蛋白质来说,sequence motifs可以被定义为蛋白质(蛋白质序列)属于一个给定的蛋白质家族。一个简单的motif可以是,例如,一个模式pattern,而这个模式被这个group中的所有成员共享。例如WTRXEKXXY(这里,X代表任何氨基酸)。当然也有更复杂的motif模型。Motif有时和特定的功能联系一起。
Protein domains:是一种结构实体,通常代表蛋白质结构中独立折叠和行驶功能的一部分。因此,蛋白质经常是这些结构域的不同的组合构建起来的。
那,motif和domains之间有什么联系?当你考虑蛋白质家族的时候,不仅要看整个序列,还有关注单独结构域。因为,它们是一个基本的功能结构单位,因此找到单个结构域domain的序列motif是很有意义的。因此,你经常会发现一个蛋白质包含多个结构域,每个结构域都有一个与它所属的家族motif匹配的序列。
最主要的区别是,domain是独立的稳定的,motif不是。
2008.2:Disease candidate gene identification and prioritization using protein interaction networks
网友评论