美文网首页
生物数据库之二级蛋白质数据库

生物数据库之二级蛋白质数据库

作者: yhh_hygge | 来源:发表于2020-04-23 23:35 被阅读0次

二级蛋白质数据库数目众多,我们挑几个常用的给大家介绍。

一、结构域家族数据库 Pfam

Pfam 数据库是一个蛋白质结构域家族的集合,包括了一万六千多个蛋白质家族。蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作结构域(domain)。在不同的蛋白质中结构域以不同的组合出现,形成了蛋白质的多样性。识别出蛋白质中的结构域对于了解蛋白质的功能有重要意义。

TLR

比如 Toll 样受体蛋白:人的免疫系统中有许多种 Toll 样受体蛋白,所有这些种类的 Toll 样受体蛋白都可以分成三个结构域, 每个结构域行使不同的功能。胞外域用于识别不同的入侵物,跨膜区穿膜,胞内域用于胞内信号转导。

免疫蛋白MyD88.JPG

另一个免疫蛋白 MyD88,存在于胞内。它与 Toll 样受体的功能不同,但它有一个和 Toll 样受体胞内域相同的结构域。这两个不同蛋白上的相同结构域可以相互结合以激活下游的信号传导。

因此,如果我们能够探明一个未知功能的蛋白质上有哪些已知的结构域, 那我们就大致可以推测出它的功能。

Pfam 主页上的搜索工具可以帮助我们查找某条序列上有哪些结构域。

image-20200423172156371 输入上图示例序列(示例序列的富文本附件 pfam.fasta点击下载)。这是一条 Toll 样受体蛋白的序列。搜索结果显示,一共找到 4 个区域匹配 Pfam 数据库中已记录的结构域。前三个是 Toll 样受体蛋 白胞外域典型的重复序列片段。 image-20200423174234059 image-20200423174410931

最后一个是 TIR 结构域,也就是我们刚才说的 Toll 样受体蛋白的胞内域。

点击胞内域查看详细信息如下:

image-20200423174641602

Summary 里可以获得这个结构域的功能注释以及结构信息。

Domain Organization 里可以看到目前有多少蛋白质拥有 TIR 结构域,以及 TIR 结构域和其他结构域之间的组合搭配关系。

image-20200423174740118

Structure 会列出目前所有包含 TIR 结构域的蛋白质结构,以及他们在序列数据库 UniProt 和结构数据库 PDB 中的链接。同时,也提供 JSmol 在线结构查看工具。

image-20200423174901141

二、CATH 数据库

根据结构域的空间特征可以对结构域进行分类。

CATH 和SCOP 是两个重要的蛋白质结构分类数据库。

CATH 数据库由伦敦大学1993 年创建。CATH的名字C、A、T、H 是数据库中四种结构分类层次的首字母。

image-20200424173359077
  • 所有蛋白质结构域在CATH 中被首先分成4 种CLASS,这就是C。四种CLASS 分别是全α型,全β型, α +β型,低二级结构型。比如图中第一行这三个蛋白质,很显然左边是全α的,右边是全β的,中间是 α +β的。

  • 每一个Class 中的结构域又被具体分为不同的architecture,也就是A。A 这一层是按照螺旋和折叠所形成的超二级结构排列方式分类的。比如α +β这个class 下的结构可以进一步分为桶状的,三明治状的,还有滚轴状等Architecture。

  • 每种Architecture 里的结构域,又可以根据二级结构的形状和二级结构间的联系更进一步分为不同的topology,也就是T。

  • 最后再通过序列比较以及结构比较确定同源性分类,划分出不同的homologous superfamily,也就是H。

这样每个结构从粗到细,即从A 到H,会有四个层次的分类。

注意:结构分类是以结构域为单位进行的,而不是针对整个蛋白。所以PDB 中的一个蛋白质结构可能对应CATH中多个结构域分类。CATH 在分类时既使用计算机程序,也进行人工检查。

CATH 为每一层的每一种结构分类命名,并用数字代号代表这一分类。因此每个结构域会具有一个分类代码。

image-20200424173751624

第一个数字是C 这一层的分类代码,第2 个数字是A 这一层的分类代码,第3 个数字是T 这一层的分类代码,第4 个数字是H 这一层的分类代码。

目前CATH 已为PDB 数据库中10 多万个蛋白质结构所涉及的30 多万个结构域进行了结构分类,这些分类可以归入两千七百多个蛋白质超家族中。此外,CATH-Gene3D 还为超过500 万条来自公共数据库的蛋白质序列进行了结构分类预测。Gene3D 里的信息为绝大多数还未解析3D 结构的蛋白质提供了重要的功能研究依据。

接下来,我们从CATH 数据库搜索一个PDB 结构的分类信息。

image-20200424174317706

搜索条输入3H6X,这是我们在PDB 数据库里查看过的dUTPase 的结构。

image-20200424174413598

结果显示dUTPase 蛋白的结构分类代码是2.70.40.10。点击这个分类代码,可以获得各层次具体的结构分类信息以及各种结构相关分析信息。

image-20200424174639036

结果页面的下半部分还提供聚类图。这里,CATH 把所有拥有2.70.40.10结构分类的结构域,根据他们的序列相似度不同,进行了聚类(如下图)。不同深浅的圈代表不同的序列相似度。通过这张图,我们可以了解到具有相同结构分类的蛋白质他们在序列水平上的亲缘关系远近。

image-20200424174935809

此外,CATH 还从2.70.40.10 这个结构分类里挑出了19 个有代表性的结构域,并且把他们的3D 结构叠加在了一起(图3)。从这个图上,我们可以看到这个结构分类的总体特征以及差异产生的位置

image-20200423175418008

三、结构分类数据库SCOP 2

SCOP 数据库与CATH 类似,也属于蛋白质结构分类数据库,但SCOP 的分类原则更多考虑蛋白质间的进化关系,而且分类主要依赖于人工验证。

和CATH 一样,SCOP 的结构分类也基于四个层次。

  • 第一层也叫Class,也是基于二级结构成分分类。

  • Class 之下是Fold,主要考虑结构的空间几何关系。

  • 再往下是Superfamily,基于远源的蛋白质进化关系分类。

  • 最后是Family,基于近源的蛋白质进化关系分类。

注意:SCOP 和CATH 里面都有提到Superfamily这个词,但两者的含义并不相同。CATH 里Superfamily 是指的从C 到A 到T 再到H 这样四层的一个精细结构分类。而Scop 中,Superfamily 是结构分类的第三个层次的名称。

目前,SCOP 已升级为SCOP2SCOP2 的主页上也有搜索条,可以查看某一个PDB 结构的结构分类。

搜索结果中的第2 到第5 条,就是该蛋白质结构的四层分类。

第一层Class,第二层Fold,第三层Superfamily,第四层Family。

第一层Class 之上是SCOP 数据库的根。

第4 层family 之下是这个蛋白质的名字,再往下是所属物种。

虽然从这个谱系上看有7 个层次,但实际上真正的结构分类只有中间四层。

相关文章

  • 2020-12-22 生信2.0生物数据库(第二部分)

    一级蛋白质结构数据库:PDB 二级蛋白质数据库:结构域家族数据库Pfam 二级蛋白质结构数据库:结构分类数据库CA...

  • 生物信息学相关数据库

    生物信息学数据库可以分为4大类:即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子三维空间结构数据库,当前研究...

  • 认识核酸数据库

    今天了解几个重要的生物数据库~生物数据库种类很多,可以分为 核酸数据库、蛋白质数据库,和一些特殊的专用数据库。而数...

  • 2021-09-30 数据库记录格式

    分子序列数据库主要分为初级数据库和二级数据库。初级数据库包括了核苷酸序列,蛋白质序列和蛋白质结构数据库,二级数据库...

  • 如何做蛋白质互作网络图

    原创 如期生物 使用String数据库,可以做做蛋白质互作网络图。String数据库(https://strin...

  • 一级蛋白质数据库

    蛋白质序列数据库 三大数据库共同构建蛋白质序列数据库——uniprot 数据库 Uniprot 数据库 unipr...

  • 【读书笔记】生信札记 第二章

    1.简介 生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库。 初级数据库贮存原始的生物数据,如 DNA...

  • 【生信课程】02生物数据库-山东大学-生物信息学

    生物数据库 一级核酸数据库 NCBI https://www.ncbi.nlm.nih.gov/ EBI DDB...

  • Linux本地化运行NCBI blast+

    前言:作为生物科研人员的标配,BLAST知多少? BLAST简介:BLAST是一套在蛋白质数据库或DNA数据库中进...

  • 生物数据库(一)

    现存数据库有超过2000种 分为三类:核酸数据库、蛋白质数据库、专用数据库 Pubmed 数据库 索引方法 pub...

网友评论

      本文标题:生物数据库之二级蛋白质数据库

      本文链接:https://www.haomeiwen.com/subject/llecwhtx.html