会持续补充更新这个文章的,目前自己也是个半半半半吊子......
一些懵的缩写名词:
什么是NR、NT、Swiss-Prot?!!!
NOG、KOG、COG、KEGG、GO又是啥呢?!!!
首先
NR:
NR数据库是NCBI官方的蛋白序列数据库,属于非冗余蛋白序列数据库,数据来源于GenPept、SwissProt、PIR、PDF、PDB以及NCBI RefSeq,是默认的蛋白比对数据库。
NT:
NT数据库是NCBI官方的核酸序列数据库,属于非冗余核酸序列数据库,数据来源于GenBank、EMBL 以及 DDBJ,是NCBI默认的核酸blast比对数据库。
Swiss-Prot:
Swiss-Prot是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。
下载地址:https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/
这里面包含了上三个数据的信息,不过这数据量也太大了吧,NR+NT的数据都260G了......
其次
NOG
NOG:Non-supervised Orthologous Groups,注意是非监督,因COG未及时更新,EMBL EggNOG对COG进行了完善,极大拓展了基因组信息,主要是基于HMM分析提供更细致的OG分析。
KOG
KOG:EuKaryotic Orthologous Groups(为什么不叫EOG?问号脸)。广义上COG分为真核和原核生物两类,原核的一般称为COG数据库,真核的一般称为KOG数据库。
COG
COG:Clusters of Orthologous Groups of proteins,即同源蛋白簇,是NCBI的一个数据库。根据生物完整基因组的编码蛋白系统进化关系分类构建而成,每一簇COG由直系同源序列构成,从而可以推测该序列的功能,按功能共可以分为二十六类。
GO KEGG
GO(Gene Ontology)和KEGG(Encyclopedia of Genes and Genomes)则是耳熟能详的富集分析和通路分析的两大功能数据库了
网友评论