KEGG pathway 注释整理

作者: 超人立志做国王 | 来源:发表于2019-06-04 21:44 被阅读53次

KEGG pathway 注释整理
KEGG数据库-pathway对应基因的注释信息下载
使用clusterProfiler进行KEGG富集分析
kegg pathway解析
hsa04370:VEGF signaling pathway
Sp1-Phospholipase D signaling pa
如何使用KAAS进行KEGG注释
ggplot2绘制Pathway富集分析气泡图
R-下载某一条通路的所有基因名字（KEGG）
10 注释

KEGG pathway 注释整理

获得KEGG注释

通过eggnog-mapper和interproscan两个软件(或数据库)，可以获得KEGG ORTHOLOGY(KO)的注释，即基因或者转录本对应的K number, 具体参见两个软件的wiki.

获得KO与pathway的关系

进入KEGG官网，然后点击KEGG BRITE进入该数据库，在这个数据库中可以下载KEGG数据库中手工创建的层次结构文件(BRITE hierarchy files)。在这里，需要下载包含pathway和KO对应关系的文件，点击KEGG Orthology (KO)下载，这里下载json版本。

下面解析该文件，生成表格文件便于使用。

import json
import re

with open("ko00001.json") as f:
    ko_map_data = json.load(f)

with open("KEGG_pathway_ko.txt", "w") as oh:
    line = "level1_pathway_id\tlevel1_pathway_name\tlevel2_pathway_id\tlevel2_pathway_name"
    line += "\tlevel3_pathway_id\tlevel3_pathway_name\tko\tko_name\tko_des\tec\n"
    oh.write(line)
    for level1 in ko_map_data["children"]:
        m = re.match(r"(\S+)\s+([\S\w\s]+)", level1["name"])
        level1_pathway_id = m.groups()[0].strip()
        level1_pathway_name = m.groups()[1].strip()
        for level2 in level1["children"]:
            m = re.match(r"(\S+)\s+([\S\w\s]+)", level2["name"])
            level2_pathway_id = m.groups()[0].strip()
            level2_pathway_name = m.groups()[1].strip()
            for level3 in level2["children"]:
                m = re.match(r"(\S+)\s+([^\[]*)", level3["name"])
                level3_pathway_id = m.groups()[0].strip()
                level3_pathway_name = m.groups()[1].strip()
                if "children" in level3:
                    for ko in level3["children"]:
                        m = re.match(r"(\S+)\s+(\S+);\s+([^\[]+)\s*(\[EC:\S+(?:\s+[^\[\]]+)*\])*", ko["name"])
                        if m is not None:
                            ko_id = m.groups()[0].strip()
                            ko_name = m.groups()[1].strip()
                            ko_des = m.groups()[2].strip()
                            ec = m.groups()[3]
                            if ec==None:
                                ec = "-"
                        line = level1_pathway_id + "\t" + level1_pathway_name + "\t" + level2_pathway_id + "\t" + level2_pathway_name
                        line += "\t" + level3_pathway_id + "\t" + level3_pathway_name + "\t" + ko_id + "\t" + ko_name + "\t" + ko_des + "\t" + ec + "\n"
                        oh.write(line)

这会生成KEGG_pathway_ko.txt文件，随后对行去重。

import pandas as pd

data = pd.read_csv("KEGG_pathway_ko.txt", sep="\t")

data = data.drop_duplicates()

data.to_csv("KEGG_pathway_ko_uniq.txt", index=False, sep="\t")

最后得到KEGG_pathway_ko_uniq.txt文件，这个文件包含了KO和KEGG pathway的对应关系信息，也包含了pathway的级别分类(KEGG pathway分为3级)，如下所示：

level1_pathway_id   level1_pathway_name level2_pathway_id   level2_pathway_name level3_pathway_id   level3_pathway_name ko  ko_name ko_des  ec
9100    Metabolism  9101    Carbohydrate metabolism 10  Glycolysis / Gluconeogenesis    K00844  HK  hexokinase  [EC:2.7.1.1]
9100    Metabolism  9101    Carbohydrate metabolism 10  Glycolysis / Gluconeogenesis    K12407  GCK glucokinase [EC:2.7.1.2]
9100    Metabolism  9101    Carbohydrate metabolism 10  Glycolysis / Gluconeogenesis    K00845  glk glucokinase [EC:2.7.1.2]

合并结果

现在是表格文件，和容易将上面多种对应关系合并起来，进行后续的分析，例如可以对KEGG的注释结果按照KEGG中通路类型或者不同的level进行分类汇总，又或者对特定的基因集进行KEGG pathway的富集分析等。

KEGG pathway 注释整理
KEGG pathway 注释整理获得KEGG注释通过eggnog-mapper和interproscan两个...
KEGG数据库-pathway对应基因的注释信息下载
KEGG数据库-pathway对应基因的注释信息下载 KEGG[https://www.omicsclass.co...
使用clusterProfiler进行KEGG富集分析
欢迎关注”生信修炼手册”! KEGG pathway是最常用的功能注释数据库之一，可以利用KEGG 的API获取一...
kegg pathway解析
kegg pathway解析之前写过，链接在此:kegg pathway三级层级结构转对应表格[http://mp...
hsa04370:VEGF signaling pathway
VEGF signaling pathway [VEGF信号通路[https://www.kegg.jp/dbge...
Sp1-Phospholipase D signaling pa
磷脂酶D信号途径（Phospholipase D signaling pathway）KEGG简介：Phospho...
如何使用KAAS进行KEGG注释
使用KAAS做KEGG注释标签： KEGG， RNAseq， bioinformatics 什么是KEGG 中文...
ggplot2绘制Pathway富集分析气泡图
>library(ggplot2) #载入ggplot2 >pathway=read.table("KEGG.en...
R-下载某一条通路的所有基因名字（KEGG）
实例：如何拿到KEGG数据库中多巴胺通路相关的基因集一、确定目标通路打开KEGG选择pathway，在搜索框前...
10 注释
GO 注释 KEGG注释 Go注释批量导出结果