蛋白质三维结构预测、结果解读与评分

作者: 小洁忘了怎么分身 | 来源:发表于2018-10-11 23:25 被阅读192次

    蛋白质三维结构预测,只要有目的基因的氨基酸序列就可以做,不限物种,没有太多要求,可为文章增色。
    windows版本的VMD软件可在公众号生信星球回复“VMD”获得,且附带软件中文教程。

    一、示例序列

    以这段序列为例:

    AAGGAATTGACAGAAGAGCAGAGAACACAGCTTTTTGAAGATCTAAAACAGTGTAAAAATTCGACAGATCTTTCCGACGATGAGTTTGAAACGATCATTGCTAAGAAGGAGCTCCCTACTTCGGAAGCAGGCAAATGCTTCACGAAATGCTTGATGGAGAAATTGGATATAATTGAGGATGCTGAAGGAGGGAAGAAGAAAATCAGTGTGATCACGATGCAAGCCTCGCTGGAGGAGAATATGGAAAAGGAAGATGATATTGCTAAAGGGAAGGATATCATCCAGAAATGTGGAGATACAGTGGAGCCCGAAGACAGTTGCGCATATGCATATAATATCTCTAAATGCATTTACGATAGAATGAAGGAGGCAGGCATTTCTCAATAA

    如果你有核苷酸序列而没有氨基酸序列,可用NovoPro在线工具转换:
    http://www.novopro.cn/tools/translate.html


    得到的氨基酸序列为:

    KELTEEQRTQLFEDLKQCKNSTDLSDDEFETIIAKKELPTSEAGKCFTKCLMEKLDIIEDAEGGKKKISVITMQASLEENMEKEDDIAKGKDIIQKCGDTVEPEDSCAYAYNISKCIYDRMKEAGISQ

    二、三维结构预测的方法

    主要介绍同源建模与穿线法。

    1.同源建模

    网站:swiss-model
    原理:相似的氨基酸序列对应着相似的蛋白质结构
    要求:找到与目标序列一致度≥30%已知结构作为模板

    结果页面解读:

    (1)首先看搜到的模板与你的序列一致度是否>30%,如果不大于,要发英文文章此结果就应放弃,用iTASSER重新预测。如果只是看看,发中文或放进毕业论文,20%以上也可继续做。



    (2)如果可用,再看swissmodel自带的评分高低。
    GMQE :可信度范围为 0-1,值越大表明质量越好
    QMEAN4:区间-4-0,越接近0,评估待测蛋白与模板蛋白的匹配度越好。



    如果swissmodel预测结果不可用或评分不好,用iTASSER重新预测。

    2.折叠识别(穿线法)

    网站:iTASSER
    原理:不相似的氨基酸序列也可以对应着相似的蛋白质结构。
    补充说明:已知的蛋白质结构有十几万个,但其所具有的不同的结构拓扑只有1393个,也就是说,所有结构都落在这1393个拓扑内!因此,选择匹配能量最低的拓扑。
    要求:没要求,比较任性。一般是不能同源建模(一致度<30%)的蛋白选用这个方法。

    注意:必须用学术邮箱注册。

    结果页面解读:

    https://zhanglab.ccmb.med.umich.edu/I-TASSER/example/
    (1)预测的二级结构

    (2)预测的残基可溶性(高度暴露的表面残基:9,深埋的内部残基0)

    (3)建模使用的模版及多序列比对。不是序列相似性比对,而是用穿线法穿出来。


    (4)预测蛋白质功能,以及有可能与之结合的配体和该配体的结合位点


    评估:模型质量评估模型质量评估系数C-score:[-5,2],分值越高,可信度越高。

    TM-score:两两结构相似度系数,>0.5说明模型具有正确的结构拓扑,可信,<0.17说明模型属于随即模型,不可信。

    RMSD:两两结构间的距离偏差。

    3.从头计算法

    网站:quark

    原理:1973年《science》Anfinsen:蛋白质的三维结构决定于自身的氨基酸序列,并且处于最低自由能状态。模拟肽段在三维空间中所有可能的姿态,并计算出自由能最低的一个。

    计算量极大,不常用。

    预测完成后下载对应的pdb格式文件,用免费软件VMD可读取,就是你预测的三维结构,VMD打开默认就是这么丑的,之后再说如何调整显示。


    二.第三方软件对模型评分

    模型预测出来后需要有3个评估软件认为合格才能用,下载PDB文件,提交到测评软件。

    saves(一次性提供6个软件评估结果)http://servicesn.mbi.ucla.edu/SAVES/,其中有三个显示通过即表示模型可用。

    1.verify 3D

    超过80%的残基拥有大于0.2的3D/1D值,则模型质量合格,低于0.2的部分需要进一步修正。

    2.procheck

    拉氏图检查Cα的两面角是否合理,合格的模型超过90%的残基都应该落在红色(允许区域)和正黄色(额外允许区域)落到其他区域的残基应当被查看并修正。

    以PDB中高分辨率的晶体结构参数为参考,给出提交模型的一系列立体化学参数(主链)。其输出结果包括:拉氏图,主链的键长与键角,二级结构图,平面侧链与水平面之间的背离程度等。

    3.whatcheck

    提交的蛋白结构与正常结构之间的差异,指标贼多,绿色多就当通过了。

    4.errat

    计算0.35nm范围之内,不同的原子类型对之间形成的非键相互作用的数目(侧链)。得分>85较好,晶体可达到95,一般来说结果在91以内。

    5.prove

    与预先计算好的一系列标准体积的差别,用z-score来表示,显示模版蛋白质与待测蛋白之间的匹配程度,越高越好。
    以刚才的同源建模文件为例:


    微信公众号生信星球同步更新我的文章

    友情链接:
    生信技能树公益视频合辑:学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!
    B站链接:https://m.bilibili.com/space/338686099
    YouTube链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
    生信工程师入门最佳指南:https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA
    学徒培养:https://mp.weixin.qq.com/s/3jw3_PgZXYd7FomxEMxFmw

    相关文章

      网友评论

        本文标题:蛋白质三维结构预测、结果解读与评分

        本文链接:https://www.haomeiwen.com/subject/jmoiaftx.html