美文网首页生物信息可视化组学Linux与生物信息
gget alphafold三行命令预测蛋白质三维结构

gget alphafold三行命令预测蛋白质三维结构

作者: 小汪Waud | 来源:发表于2022-08-11 15:24 被阅读0次

    近些天,AlphaFold在热度不减的基础上又火了一把,二话不说直接确定了约2亿个蛋白质的结构,范围覆盖地球上几乎所有已知生物[1]。

    尽管AlphaFold2可以通过Docker运行,但是

    • 需要下载数据库(需要消耗约3TB的存储空间)
    • 12vCPU, 85GB RAM的高计算要求(远超笔记本)

    逛Twitter的时候,发现有一款新的工具gget alphafold[2]用于预测蛋白质的3D结构,我们本期就来盘一盘这个新工具。

    按作者的话说,gget alphafold 基于2.0版本的AlphaFold,在任何电脑/服务器上的Python环境下,仅仅只需要4 GB的硬盘,三行代码就可以运行。这对个人用户相当友好!

    应用相同的算法,gget alphaold 产生与 AlphaFold Colab 相似的结果。

    为了证明它的准确性好使,作者将与她18年的工作[3]中预测的结构进行了比较。

    预测是不完美的,这也说明了AlphaFold2的局限性,主要是在预测参考数据库中没有发现的残基时(如GFP和传感器之间的linker)。

    但结构预测可以引导我们(作者)猜测哪些残基会发生突变。


    gget alphafold会返回每个氨基酸的预测结构(PDB)和比对误差(json),PDB可以通过https://www.rcsb.org/3d-view或PyMOL查看。

    当然,gget alphafold也不是唯一的通过命令行运行alphafold的工具,Martin Steinegger的实验室曾开发了一个ColabFold[4],可在本地运行预测,不足之处是也需要下载940GB的数据库。

    为了尽量减少依赖性,gget alphaold 目前还没有配置利用 GPU,与 AlphaFold Colab 相比,可能需要多达10倍的时间才能在本地计算机上运行。然而,由于它的轻量化,它可以很容易地集成到现有的工作流。

    关于内存占用,作者表示最多几个G,你甚至可以用17款的MacBook,一边看HD的netflix一边预测蛋白结构。

    最后作者提供了一个Colab notebook链接[5],让大家无需服务器,点点点就能完成蛋白结构预测。

    实测环节

    选择了我们韩老板在18年发表在Nature上的文章A kiwellin disarms the metabolic activity of a secreted fungal virulence factor中的Cmu1蛋白[6]作为测试对象。

    Linux

    # 创建一个新的python3.8小环境
    conda create -n gget python=3.8 -y
    conda activate gget
    conda install gget -y

    # 安装依赖
    conda install -c conda-forge openmm=7.5.1 -y

    python # 进入python环境
    import gget
    gget.setup("alphafold") # 需要安装一会依赖
    # 输入蛋白序列即可预测
    gget.alphafold("MKLSVSIFVLLAVSAFGGGSAAAVSGKSEAAEIEAGDRLDALRDQLQRYETPIIQTILARSALGGRAPSEQDEVRAALSRNAFEPSEVISEWLQTESGARFRSTRPLPPAVEFITPVVLSRDTVLDKPVVGKGIFPIGRRPQDPTNMDEFLDTSLLSLNQSSTVDLASAVSLDVSLLHLVSARVLLGYPIALAKFDWLHDNFCHILTNTTLSKSQKLANIIQQLTDHKQEVNVLSRVEQKSKSLSHLFRNDIPYPPHTQDRILRLFQAYLIPITTQIEAAAILDHANKCT")

    耗时2 h起步。

    Colab在线(推荐)

    这个就非常简单了,不要修改下图中的命令,按箭头顺序点击运行命令。

    运行结束后会输出四张图。

    实测在Colab上不到1.5 h就完成了预测,准确性似乎还行。

    参考资料

    [1]‘The entire protein universe’: AI predicts shape of nearly every known protein: https://www.nature.com/articles/d41586-022-02083-2
    [2]Laura Luebbert的推特原文: https://twitter.com/NeuroLuebbert/status/1555968173609865216
    [3]Fluorescence activation mechanism and imaging of drug permeation with new sensors for smoking-cessation ligands: https://elifesciences.org/articles/74648
    [4]ColabFold: https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
    [5]Colab notebook链接: https://colab.research.google.com/drive/1IcpXnPD8rrmngr1x3SuQQiE0X_f4lGpY?usp=sharing
    [6]Cmu1蛋白: https://www.ncbi.nlm.nih.gov/protein/A0A0D1DWQ2.1

    相关文章

      网友评论

        本文标题:gget alphafold三行命令预测蛋白质三维结构

        本文链接:https://www.haomeiwen.com/subject/yiftgrtx.html