数据库学习

作者: happyxhz | 来源:发表于2019-01-14 17:19 被阅读58次

    COG

    全称:Clusters of Orthologous Groups from 66 complete genomes
    官方网站:
    构成每个COG的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是orthologs或者是paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。请参考文献获得更多的信息。

    通过观看其主页和说明文档,可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。

    铁汉COG

    NCBI

    RefSeq Gene注释,对gene的不同转录本进行注释,1个转录本对应1个编号成为RefSeq id,例如对于可以翻译成蛋白的转录本,都会以NM_开头如NM_015658;对于不能翻译的转录本,都会以NR_开头如NR_027055;

    Swiss-Prot数据库

    来源于UniProt
    UniProt 主要包括两个数据库Swiss-Prot和TrEMBL,其中关于Swiss-prot的说明:人工注释和检查过的,更可信,而TrEMBL是自动注释且未经检查的

    使用的是Swiss-Prot数据库,示例:
    注释结果如sp|Q27081|CFB_TACTR:

    • sp表示该数据来源于Swiss Prot数据库
    • Q27081表示UniprotKB 编号
    • CFB为protein的缩写(Clotting factor B)
    • TACTR为物种缩写(Tachypleus tridentatus)

    示例网站截图:

    图片.png

    String蛋白互作网络(protein protein interaction, PPI)分析

    入门参考

    肿瘤研究相关数据库

    最经典的Cosmic数据库[COSMIC(https://cancer.sanger.ac.uk/cosmic/)]

    全称:Catalogue of somatic mutation in cancer

    1. 解读用COSMIC
    2. drive gene:
    3. sigatures
      用于突变特征分析,针对点突变
      考虑到突变位点上下游1 bp 位置的碱基种类,可将点突变分为96种类型。根据96种突变类型的频率,通过非负矩阵分解的方法将点突变分解为多个不同的突变特征(A,B,C),将所得的signature ABC与COSMIC种的signature做聚类分析。

    CGATools

    常用软件:
    ABSOLUTE -- 用于CNV分析
    MutSig -- 找出变异中的significant mutation gene

    Oncomine

    如果你获得了一个肿瘤差异表达基因,想研究其是否可作为某种肿瘤的潜在标志物和靶点,又怕做实验会得到阴性结果,浪费时间和金钱,这时候你就应该想到Oncomine数据库了。

    参考网站:

    信号通路相关数据库

    信号通路相关数据库

    外显子频率相关

    如何挖掘外显子变异频率信息

    相关文章

      网友评论

        本文标题:数据库学习

        本文链接:https://www.haomeiwen.com/subject/zqcjdqtx.html