上一步差异表达分析拿到了表达谱【比如当用药物处理之后,实验组中哪些基因的表达发生了变化】
所谓基因的功能其实是基因产物的功能
GO数据库 Gene Ontology
允许在各种水平查询基因产物的特性
image.png
解决生物学定义又混乱的现象,是的各种数据库中基因产物功能描述相一致,使得在不同生物数据库中的查询具有极高的一致性
w/1240)
-
一个基因多种功能
栗子:TP53
image.png
-
生物学功能的多种描述
Ontology 的结构
image.png image.pngGO term 之间的关系
- is a
image.png
- part of
image.png
- is a +part of
image.png
- 调节控制关系以及推导
image.png
KEGG数据库(京都基因和基因组百科全书)
image.png image.png image.png
符号的含义 image.png
ID意思
image.png
功能注释实操
-
workflow
例子1:查看单个疾病风险基因注释到哪些通路
-
KEGG
- 神经胶质瘤(Glioma)风险基因(NCBI-GeneID :1956),该基因编码表皮生长因子受体(EGFR)
- 进入KEGG搜索界面http://www.genome.jp/kegg/tool/map_pathway2.html
- 选择Organism-specific为:hsa
- 选择Optional use of outside类型为:NCBI-GeneID
-
输入EGFR基因(如格式:1956 red)
image.png
image.png
-
GO
-
神经胶质瘤(Glioma)风险基因(NCBI-GeneID :1956),该基因编码表皮生长因子受体(EGFR)
三个板块
image.png
- 进入GO界面http://www.geneontology.org/
- 输入EGFR基因(格式: EGFR )
- 选择Gene Product
-
点击Go
IEA是经过实验验证
IDA类型是计算机预测的
例子2:查看多个疾病风险基因注释到哪些通路(适用于复杂疾病)
-
从通过差异表达分析获得airway数据集trt和untrt间差异表达基因集合:共640个基因
image.png -
选择Organism-specific为:hsa
-
选择Optional use of outside类型为:NCBI-GeneID
-
输入差异表达基因,格式:19 red
-
368 red
-
点击Exec
功能富集分析
原因
image.png
统计学方法 image.png
结果可视化
#### 第一步,从org.Hs.eg.db提取ENSG的ID 和GI号对应关系
keytypes(org.Hs.eg.db)
# bitr in clusterProfiler
allID <- bitr(gene_all, fromType = "ENSEMBL", toType = c( "ENTREZID" ), OrgDb = org.Hs.eg.db )
degID <- bitr(DEG, fromType = "ENSEMBL", toType = c( "ENTREZID" ), OrgDb = org.Hs.eg.db )
head(degID)
# KEGG analysis----
enrich <- enrichKEGG(gene =degID[,2],organism='hsa',universe=allID[,2],pvalueCutoff=1,qvalueCutoff=1)
##enrichKEGG只有一句话
##背景基因值的选择会影响最后的P值
GeneRatio <- as.numeric(lapply(strsplit(enrich$GeneRatio,split="/"),function(x) as.numeric(x[1])/as.numeric(x[2])))
BgRatio <- as.numeric(lapply(strsplit(enrich$BgRatio,split="/"),function(x) as.numeric(x[1])/as.numeric(x[2]) ))
enrich_factor <- GeneRatio/BgRatio
out <- data.frame(enrich$ID,enrich$Description,enrich$GeneRatio,enrich$BgRatio,round(enrich_factor,2),enrich$pvalue,enrich$qvalue,enrich$geneID)
colnames(out) <- c("ID","Description","GeneRatio","BgRatio","enrich_factor","pvalue","qvalue","geneID")
write.table(out,"../Analysis/deg_analysis/trut_VS_untrt_enrich_KEGG.xls",row.names = F,sep="\t",quote = F)
out_sig0.05 <- out[out$qvalue<0.05,] ##挑选过程
# barplot
bar <- barplot(enrich,showCategory=10,title="KEGG Pathway",colorBy="p.adjust")
bar
image.png
网友评论