NCBI上的三个重要的数据库—NR/NT,Taxonomy和RefSeq
NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。
NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。
NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。
RefSeq(the reference sequence database,https://www.ncbi.nlm.nih.gov/refseq/ ).参考序列数据库
包含RefSeq_genomic(NCBI genomic reference sequences)
RefSeq_protein(NCBI protein reference sequences)
RefSeq transpans(NCBI transpans reference sequences)
具有生物意义上的非冗余基因,转录本和蛋白质序列,是经过NCBI和其他组织校正的数据库,使用人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。
网友评论