美文网首页自学生信锦囊
【陪你学·生信】四、蛋白质相关的数据库

【陪你学·生信】四、蛋白质相关的数据库

作者: 番茄随笔 | 来源:发表于2020-09-25 19:02 被阅读0次

    一、简单说蛋白质合成

    对蛋白质提取和测序比DNA的操作贵,一般大家先分析核苷酸序列,推测ORFs,机器翻译出蛋白质的氨基酸序列。但是研究蛋白质的科学家觉得这个方法并不可靠。

    因为一个成熟蛋白质的aa链需要经过很多修饰(切割、水解、甲基化等化学修饰、添加脂质分子、添加糖苷分子等),仅通过预测ORF→翻译蛋白也会把成熟蛋白质最基本的理化性质搞错,比如大小,分子质量,等电点。

    前面的文章中介绍的数据库也有ORFs和机器翻译的aa信息。与之前简单的机器预测结果相比,蛋白质数据库的主要作用是展示蛋白质的一系列修饰信息,定位和结构域的信息等。而且Swiss-Prot是人工审核校对,注释的,其结果多为有实验证据支持的,而非全部都是计算机分析的结果。

    二、Swiss-Prot数据库

    尽管前面说了很多成熟蛋白质的诞生是多么不容易,但其实,就其长度短,起始终止区域明确,单链等特点,还是比较简单的分析对象。

    其结果页面的条目也是很清晰的,包括基础信息、参考文献、功能信息、特征表和序列部分。以人类 epidermal growth factor receptor (EGFR,表皮生长因子受体)为例,Accession Number P00533,看看Swiss-Prot中的结果。

    数据库主页

    https://www.uniprot.org/

    左侧display栏中将结果分为四部分,内容真的很多,点进去都会有详细的解释:

    还有一些交叉数据库的链接, 比如EMBL,PDB等。

    三、分析蛋白质的更多信息——其他数据库

    Swiss-Prot结果页已经对感兴趣蛋白质的综合信息展示地很全面了,而且也有该蛋白质在一些其他数据库的信息的超链接,但是还是额外介绍一下其他的分析蛋白质特定信息的网站吧。

    1. 形成成熟蛋白质过程中对氨基酸的修饰

    RESID(https://proteininformationresource.org/resid/resid.shtml)中检索关键词比如肉豆蔻酰化修饰(myristoylation),可以获得其化学式等详细信息。也可以在Swiss-Prot获得你想搜索的蛋白质ID,再去RESID中查找其修饰过程,不过有的没有被收录。

    2. 包含更多生化信息的网站

    (1)Glycan 数据库

    收录了糖类物质的结构信息,并给出了糖类参数的各种代谢通路等。

    http://www.glycanstructure.org/

    (2)Lipid Bank 脂质信息数据库

    http://lipidbank.jp/

    (3) ChemIDplus 化合物化学结构

    https://chem.nlm.nih.gov/chemidplus/

    3. 蛋白质参与的生化途径

    (1)Kyoto Encyclopedia of Genes and Genomes(KEGG)数据库

    https://www.genome.jp/kegg/kegg2.html

    (2)brenda数据库——生物合成催化酶数据库(设计实验必不可少的工具)

    https://www.brenda-enzymes.org/

    (3)大肠杆菌K-12 MG1655的数据库,包含基因组、转录调控、转运蛋白和代谢途径等信息。

    https://ecocyc.org/

    4. 蛋白质结构

    对蛋白质的氨基酸序列进行分析之后,我们可能还想知道这几个氨基酸残基的位置,它们是否在蛋白质表面?与另一个残基是近还是远?回答这些问题需要先了解该蛋白质的结构信息。推荐以下数据库:

    (1)PDB——最常用

    https://www.rcsb.org/

    (2) NCBI-Structure

    https://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml

    (3)SCOP

    http://scop.mrc-lmb.cam.ac.uk/

    (4)CATH

    http://www.cathdb.info/

    (5)Swiss-Model——蛋白质结构建模

    https://swissmodel.expasy.org/

    5. 了解主要蛋白家族的信息

    有一些蛋白质家族是某些领域的研究热点,其相关信息有以下数据库进行收集整理。

    (1)IMGT——免疫遗传学数据库,收录免疫球蛋白,T细胞受体等蛋白家族

    http://www.imgt.org/

    (2)REBASE——限制酶和相关蛋白的数据库

    http://rebase.neb.com/rebase/rebase.html

    (3)CAZy——研究降解、修饰和生成糖苷键的酶

    http://www.cazy.org/

    (4)MEROPS——蛋白酶数据库

    https://www.ebi.ac.uk/merops/

    (5)SPP——用于研究细胞信号通路的多组学数据库

    https://signalingpathways.org/index.jsf

    今天才知道,原来Swiss-Prot数据库中的检查工作都是Amos Bairoch一人或者他的团队完成的啊。与NCBI不同,NCBI是上传人对自己上传的信息的准确度负责;而Amos Bairoch可以对Swiss-Prot中数据随时修改,审核,注释。想想都是一个很大的工作量。这种一人扛起一个数据库的情况在一些创建比较早的老数据库中是很常见的。

    相关文章

      网友评论

        本文标题:【陪你学·生信】四、蛋白质相关的数据库

        本文链接:https://www.haomeiwen.com/subject/kyafuktx.html