美文网首页试读注释和富集
基因功能注释的二三事

基因功能注释的二三事

作者: BINBINCC | 来源:发表于2021-11-29 21:41 被阅读0次

    会持续补充更新这个文章的,目前自己也是个半半半半吊子......

    一些懵的缩写名词:

    什么是NR、NT、Swiss-Prot?!!!
    NOG、KOG、COG、KEGG、GO又是啥呢?!!!

    首先
    NR:

    NR数据库是NCBI官方的蛋白序列数据库,属于非冗余蛋白序列数据库,数据来源于GenPept、SwissProt、PIR、PDF、PDB以及NCBI RefSeq,是默认的蛋白比对数据库。

    NT:

    NT数据库是NCBI官方的核酸序列数据库,属于非冗余核酸序列数据库,数据来源于GenBank、EMBL 以及 DDBJ,是NCBI默认的核酸blast比对数据库。

    Swiss-Prot:

    Swiss-Prot是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。

    下载地址:https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/
    这里面包含了上三个数据的信息,不过这数据量也太大了吧,NR+NT的数据都260G了......

    image.png
    其次
    NOG

    NOG:Non-supervised Orthologous Groups,注意是非监督,因COG未及时更新,EMBL EggNOG对COG进行了完善,极大拓展了基因组信息,主要是基于HMM分析提供更细致的OG分析。

    KOG

    KOG:EuKaryotic Orthologous Groups(为什么不叫EOG?问号脸)。广义上COG分为真核和原核生物两类,原核的一般称为COG数据库,真核的一般称为KOG数据库。

    COG

    COG:Clusters of Orthologous Groups of proteins,即同源蛋白簇,是NCBI的一个数据库。根据生物完整基因组的编码蛋白系统进化关系分类构建而成,每一簇COG由直系同源序列构成,从而可以推测该序列的功能,按功能共可以分为二十六类。

    GO KEGG

    GO(Gene Ontology)和KEGG(Encyclopedia of Genes and Genomes)则是耳熟能详的富集分析和通路分析的两大功能数据库了

    相关文章

      网友评论

        本文标题:基因功能注释的二三事

        本文链接:https://www.haomeiwen.com/subject/pkglxrtx.html