美文网首页
BGI-College生信入门系列——3、数据库

BGI-College生信入门系列——3、数据库

作者: 华大基因学院 | 来源:发表于2022-01-29 16:55 被阅读0次

    一、为何需要生物数据库?

    上期在介绍GenBank格式时举了新冠病毒基因组的例子,仅一个S基因就长达3822 nt(nucleotide,这里指核苷酸数),基因组全长接近3万个碱基。

    LOCUS       NC_045512              29903 bp ss-RNA     linear   VRL 18-JUL-2020
    ...
    gene            21563..25384
    /gene="S"
    /locus_tag="GU280_gp02"
    /gene_synonym="spike glycoprotein"
    /db_xref="GeneID:43740568"
    ...

    一页A4纸大概能记录1.5万个碱基

    北京大学图书馆以800万册的藏书量坐拥国内高校Top1 按照一本书500页A4纸计算,一个人的基因组约等于200本书,北京大学图书馆纸质书的数量近乎于4万人的基因组。

    这还仅仅是一个物种的一小部分,成千上万的物种都有基因组数据,有的基因组甚至是人类基因组的数十倍,如重楼百合有150 Gb大小的基因组(表1), 人均每分钟英文字符的阅读量不足1千个[1] 。

    如此算来,即便你昼夜不停地读,也要超过285年才能读完一个重楼百合的基因组序列。此外还有大量的注释信息,需要借助大型计算机才能存储下这些庞大的数据资源。

    基于计算机资源构建的生物信息数据库可以更好地管理、更新和读取分析基因组数据

    表1. 代表性物种的基因组大小

    二、数据库的分类

    根据存储数据的类型,可划分为核酸数据库、蛋白质数据库和专用数据库

    表2. 常用的生物数据库

    表3. 常用生物数据库ID

    很多编号看起来挺复杂,还不赶紧收藏一下本帖以备不时之需~

    三、数据库的使用

    下面简单介绍一下NCBI数据库的使用

    Web blast

    Nucleotide BLAST
    核酸序列比对,query sequence为核酸序列,目标database为核酸数据库(NT)

    blastx
    核酸序列比对蛋白序列,query sequence为核酸序列,目标database为蛋白序列数据库(NR)

    tblastn 
    蛋白序列比对核酸序列,query sequence为蛋白质序列,目标database为核酸数据库

    Protein BLAST
    蛋白序列比对,query sequence为蛋白序列,目标database为蛋白序列数据库

    举个例子

    当你做PCR成功扩增出目的片段时,为了验证产物,得到产物的序列信息后应该进行核酸序列比对(Nucleotide blast)以确认产物是正确的,而非污染造成的假阳性。

    此外,如果所扩增的片段编码蛋白质,还可以进行核酸序列比对蛋白序列(blastx)来查看相应的蛋白功能信息。

    寻找同源蛋白

    我们知道蛋白质在生物体的生命活动中承担着丰富而复杂的功能,而结构相同或相似的蛋白质一般具有相同的功能,其中有一部分我们可以基于序列相似性来判定这些蛋白的同源性

    既然可以用序列相似性来判定两个蛋白是否为同源蛋白,那判定的阈值是多少呢?

    研究表明,两个序列相似性达到50%及以上的蛋白,在同源建模时结构相差大约在1埃(0.1 nm)

    当相似性低于30%时,仅通过序列信息预测获得的蛋白结构,其准确性难以保证[1]

    也就是说30%就是我们用序列相似性评判蛋白质是否同源的一个阈值

    其它数据库——国家基因库CNGBdb

    除了NCBI的数据库,你还可以在国家基因库平台使用千种植物基因组项目(The 1000 Plants Project)和万种鸟类基因组项目(The Bird 10000 Genomes Project)等项目的数据库

    参考文献

    [1] Chung SY, Subbiah S. A structural explanation for the twilight zone of protein sequence homology.Structure. 1996;4(10):1123-1127. doi:10.1016/s0969-2126(96)00119-0

    相关文章

      网友评论

          本文标题:BGI-College生信入门系列——3、数据库

          本文链接:https://www.haomeiwen.com/subject/riqfkrtx.html