今天了解几个重要的生物数据库~
生物数据库种类很多,可以分为 核酸数据库、蛋白质数据库,和一些特殊的专用数据库。而数据库都有一定的内部结构,以pubmed为例,它的信息被分割成小节,每个小节都有自己的索引名,如 au
代表作者,AB
代表摘要,所以在pubmed检索 TAPase
时,可以使用 TAPase[AB]
这种形式(搜索摘要中存在 TAPase
的词条)。
1.一级核酸数据库(Genebank、ENA、DDBJ)
Genebank、ENA、DDBJ共同构成国际核酸序列数据库合作联盟INSDC,通过INSDC,三大核酸数据库的信息每日互相交换、更新汇总,这使得他们几乎在任何时候都享有相同的数据。
dUTPase在Genebank中的展示为例:
dUTPase在Genebank
- LOCUS:其中包含了如下信息... 基因座名(无论如何都是唯一的);核酸序列长度;分子的类型;拓扑类型;更新日期
- DEFINITION:这条序列的定义和解释
- ACCESSION :检索号(在一个数据库中唯一且不变的,但在不同的数据库中可以不同)
- VERSION:版本号
- FEATURES:描述核酸序列中各个已确定的片段区域,包含很多字条目,比如来源(source),启动子(promoter),RBS 核糖体结合位点,CDS记录ORF开放阅读框等。
如果你想要复制出整条序列,可以在网页起始处点击FASTA
,获得FASTA格式的核酸序列
- 第一行:大于号加名称或其他注释
-
第二行以后:序列,每行60个字母
fasta格式
2.二级核酸数据库(RefSeq、dbEST、Gene)
- RefSeq数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录组序列和蛋白质序列。
- dbEST数据库:表达序列标签数据库,包含来源于不同物种的表达序列标签(ETS)
- Gene数据库:为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录
网友评论