美文网首页我爱编程
使用rsync下载PDB数据库

使用rsync下载PDB数据库

作者: biolearn | 来源:发表于2018-05-28 15:56 被阅读0次

    2018.5.28 星期一 多云 biolearn

    从PDB数据库下载复合物的结构有两种方式,一是直接通过网页检索下载,二是使用rsync从PDB ftp端下载。

    下载指定ID的PDB

    PDB ftp 端的文件命名格式是 pdbID.ent.gz,所以在下载指定名字的PDB文件时,需要按照ftp上的命名规则命名下载,例如,下载名为1aay的结构,下载的文件是gz格式,解压后即为PDB文件。

    wget ftp://ftp.wwpdb.org/pub/pdb/data/structures/all/pdb/pdb1aay.ent.gz
    gunzip pdb1aay.ent.gz
    

    下载全部的PDB文件

    不同文件格式对应的下载命令

    PDB格式

    rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/pdb/ ./pdb
    

    mmCIF格式

    rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/mmCIF/ ./mmCIF
    

    xml格式

    rsync -rlpt -v -z --delete --port=33444 rsync.rcsb.org::ftp_data/structures/divided/XML/ ./XML
    

    解压所有文件

    将下载下来的所有.gz的文件进行解压并修改为.pdb的格式并存放在文件夹pdbstructure中的shell脚本

    #!/bin/sh
    mkdir pdbstructure
    for filename in `ls ./pdb`
    do
        gunzip ./pdb/$filename/*
        for subfile in `ls ./pdb/$filename`
        do
            target_name=${subfile:3:4}.pdb
            mv ./pdb/$filename/$subfile ./pdbstructure/$target_name
        done
    done
    

    参考资料

    http://www.wwpdb.org/download/downloads

    相关文章

      网友评论

        本文标题:使用rsync下载PDB数据库

        本文链接:https://www.haomeiwen.com/subject/hnygjftx.html