美文网首页基因家族
blast数据库文档说明(2018-06-03)

blast数据库文档说明(2018-06-03)

作者: 简单点lili | 来源:发表于2018-06-03 18:19 被阅读0次

    blast数据库说明地址:ftp://ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html
    更新于2017年3月6日

    文档中主要描述NCBI-FTP站点下可用的BLAST数据库。

    1 快速启动

    • 为具有相同基名的数据库获取所有编号的文件:
      这些文件中的每一个代表该数据库的子集(卷),并且所有这些文件都
      需要重建数据库。
    • 在提取之后,不需要连接生成的文件:
      用数据库文件调用具有基名的数据库,使用"-db nr"。
    • 为了便于下载,请使用BAST+包中的update_blastdb.pl脚本。
    • 增量更新不可用

    2 概论
    在NCBI-BASIC主页的BASIC部分下的BLAST搜索页面使用一组标准的BLAST数据库,用于核苷酸、蛋白质和翻译的BLAST搜索。这些数据库可作为预格式化形式的压缩存档提供,并且可以从BLAST-FTP站点的/db目录中被download使用。FASTA文件驻留在/FASTA目录下。
    预先格式化的数据库具有以下优点:

    • 预格式化消除了运行 makeblastdb的需要;
    • 每个数据库条目都包含物种级分类ID;
    • 数据库被分解成更小的体积,因此更容易。
      下载;
    • FASTA格式的序列可以从预格式化数据库生成
      通过使用BLASTBCMD实用工具;
    • 在BLAST +包中有一个方便的脚本(update_blastdb.pl)可下载预格式化的数据库。

    预格式化的数据库必须使用update_blastdb.pl脚本下载
    在二进制模式下通过FTP。这个脚本的文档可以通过运行来获得。
    没有任何参数的脚本;Perl安装是必需的。

    下载的压缩文件必须用GZIP或其他解压缩程序膨胀。
    工具。然后可以从生成的焦油中提取BLAST数据库文件。
    使用UNIX/Linux上的TAR实用程序,或者WinZip和StuffIt扩展程序
    Windows和Macintosh平台。

    大型数据库被格式化为多个千兆字节卷,它们被命名为
    使用碱基名称。所有具有相同基名的卷都是
    必修的。提供别名文件以将单个卷捆绑在一起,以便
    可以使用基名调用数据库(不使用.NAL或.PAL)。
    延伸)。例如,要调用EST数据库,只需使用“-dB EST”选项即可。
    在命令行中(没有引号)。

    未在预格式化格式中提供的附加BLAST数据库
    在FASTA子目录中可用。对于其他基因组爆破数据库,
    请检查基因组FTP目录在:
    FTP://FTPNCBI.NLM.NIH.GOV/GENOMESS/

    3 /BLAST/DB/目录的内容

    预格式化的BLAST数据库存档在该目录中。这些数据库及其内容的名称如下。


    数据库名称第一部分
    数据库名称第二部分

    4 /BLAST/DB/FASTA目录的内容

    此目录包含FAST-格式化的序列文件。文件名和数据库内容如下。这些文件必须在BLAST程序使用之前,通过BLASTBCMD进行解包和处理。


    数据库.png

    5 数据库更新

    blast数据库定期更新。没有建立的增量更新方案。我们建议定期下载完整的数据库以保持它们的内容。

    6。非冗余偏转句法

    非冗余数据库是NR、NT和PATAA。相同的序列被合并到这些数据库中的一个条目中。要合并两个序列,必须具有相同的长度,并且每个位置上的每个残差必须相同。对于属于一个记录的不同条目的FASTA偏转由控件分隔,这是大多数程序不可见的字符。在下面的示例中,两个条目Q57 29 3.1和AAB05030.1具有相同的顺序,在各个方面。

    单个序列现在简单地通过它们的访问版本来标识。

    对于不属于官方NCBI序列数据库的数据库,如跟踪数据库,使用GNL协议。对于自定义数据库,应遵守本公约,每个序列的ID必须是唯一的,如果你想利用索引数据库的优势,使用BLASTBCMD程序实现特定的序列检索在BASIC可执行程序包中。应参考文献分布在独立的blast包中以获取更多细节。

    7。将FASTA文件格式化为可扩展数据库

    FASTA文件需要用makeblastdb进行格式化,然后才能在本地BLAST搜索中使用。对于那些来自NCBI的,推荐以下的makeblastdb命令:

    对于核苷酸FASTA文件:

     makeblastdb -in input_db -dbtype nucl -parse_seqids
    

    用于蛋白质FASTA文件:

     makeblastdb -in input_db -dbtype prot -parse_seqids
    

    一般来说,如果数据库作为BLAST数据库可用,最好使用
    预格式化数据库。

    --- 以后再来修饰语句

    相关文章

      网友评论

        本文标题:blast数据库文档说明(2018-06-03)

        本文链接:https://www.haomeiwen.com/subject/elajsftx.html