[R] 如何绘制各样本的pathway丰度热图？

作者: 生物信息与育种 | 来源:发表于2019-10-14 16:23 被阅读0次

[R] 如何绘制各样本的pathway丰度热图？
R可视化：使用R的circlize包绘制样本-物种丰度关联弦状图
pathway富集图1 pathway_bubble.r
4. 优势物种展示
KEGG Pathway通路结果绘制气泡图
【R语言】热图绘制-heatmap+grDevice配色方案
【R语言】热图绘制-heatmap+gplots配色方案
【R语言】热图绘制-heatmap+RColorBrewer配色
ggplot2优雅的绘制高端热图
R语言绘制小RNA丰度条形图

前言

一般而言，我们做完pathway富集分析后，会做下气泡图或bar图来进行展示，这样实际上只考虑了富集因子和Pvalue。如果我们不关注这两个因素，而是在乎样本本身的pathway丰度呢？

对于KEGG热图绘制，大部分是做到KO层级，因为基因/蛋白和KO的绝大部分都是一对一的对应关系，十分方便地得到想要的结果。如果一定要做Pathway的丰度热图呢？一般的方法是将该通路中的基因/蛋白的丰度进行累加来表示该pathway的丰度。

好了，现在我们来计算并绘制热图吧。

数据处理

得到pathway富集分析结果文件一般是这样的：

image.png

Proteins字段中的基因/蛋白是用分号隔开的。

> colnames(path)
[1] "X.Pathway"       "Sample1..1113."  "Sample2..15327." "Pvalue"          "Pathway.ID"      "Level1"         
[7] "Level2"          "Proteins"        "KOs"

除此之外，我们还需要一个基因表达矩阵：

image.png

这个数据有四组样本，每组3个重复，共12个样本。

我们的目标就是整理成这样的table，用来绘制热图：

image.png

从两个表可知，数据处理关键就是pathway中的蛋白丰度求和。把pathway中对应的各蛋白展开，再匹配到表达矩阵上，最后归并求和就好了，思路清晰了就动手吧。

library(tidyverse)
path2 <- path %>% dplyr::select(X.Pathway,Level1,Level2,Proteins)

#下面这一步最关键，dplyr中为我们提供了一个有用的函数unnest
path3 <- path2 %>% mutate(ProteinID = strsplit(Proteins, ";")) %>% unnest()
colnames(path3)[1] <- "Pathway"

#如果不熟悉，这一步也可用Map函数配合do.call来完成：
out <- do.call(rbind, Map(cbind, path2$X.Pathway,path2$Level1,path2$Level2,strsplit(path2$Proteins, ";")))
out <- as.data.frame(out)
colnames(out) <- colnames(path2)

处理后得到的结果是这样的：

image.png

Proteins列中的蛋白都一一和Pathway对应起来，后面就好办了，直接贴代码：

#sum scale
ibaq2 <- sweep(ibaq,2,apply(ibaq, 2, sum),FUN = "/")

#caculate each group mean value
group <- factor(rep(c("S01CC","S11SC","S12CC","S12SC"),each=3),levels = c("S11SC","S12SC","S12CC","S01CC"))
out <- apply(ibaq2,1,function(x){
  dat <- data.frame(group=group,value=x)
  dat_mean <- dat %>% group_by(group) %>% summarise(mean=mean(value)) %>% select(mean)
})  #注意这里我计算均值忽略了na.rm参数
out[[1]]
out2 <- as.data.frame(t(do.call(cbind,out)))
colnames(out2) <- levels(group)
rownames(out2) <- rownames(ibaq2)

exp <- data.frame(ProteinID=rownames(out2),out2)
data1 <- left_join(path3,exp,by="ProteinID") %>% dplyr::select(1:3,6:9) %>% 
  gather(Sample,Abundance,-c(Pathway,Level1,Level2)) %>% 
  group_by(Pathway,Sample) %>% summarise(Sum=sum(Abundance)) %>% 
  spread(Sample,Sum)

tmp <- path3[1:3]
annotation <- tmp[!duplicated(tmp),]
length(intersect(data1$Pathway,annotation$Pathway))
#先按pathway排序，再按level2,level1排序
plotdat <- left_join(annotation,data1,by="Pathway") %>% 
  arrange(Pathway) %>% 
  arrange(Level2) %>% arrange(Level1)

现在已经得到想要的数据了。

image.png

绘图

这个就不用多解释了。

library(pheatmap)
Exp_log2=plotdat  #实际上我中间还进行了其他处理，这里便于绘图直接赋值
colnames(Exp_log2)
exp_plot <- select(Exp_log2,S11SC,S12SC,S12CC,S01CC)
rownames(exp_plot) <- Exp_log2$Pathway

annotation_row <- select(Exp_log2,Level2,Level1)
rownames(annotation_row) <- Exp_log2$Pathway

pheatmap(exp_plot,cluster_rows = F,cluster_cols = F,scale = "row",
         annotation_row = annotation_row,
          border_color = NA,
          #angle_col=45,
          color = colorRampPalette(c("blue","white","red"))(50))

图片大概成这样：

image.png

根据自己需要挑选一些pathway展示吧，太多不好看。

Ref: https://stackoverflow.com/questions/28719088/r-semicolon-delimited-a-column-into-rows

[R] 如何绘制各样本的pathway丰度热图？
前言一般而言，我们做完pathway富集分析后，会做下气泡图或bar图来进行展示，这样实际上只考虑了富集因子和P...
R可视化：使用R的circlize包绘制样本-物种丰度关联弦状图
R作图-使用circlize绘制样本物种丰度关联弦状图 circlize图也即是弦图能较好展示样本物种丰度关联关系...
pathway富集图1 pathway_bubble.r
# name: pathway_bubble.r # func：绘制富集pathway气泡图 getwd() #...
4. 优势物种展示
简介优势物种展示。数据样式：常见丰度表，列为样本，行为物种，交叉区域为各物种在各样本中的丰度。一般堆叠柱状图...
KEGG Pathway通路结果绘制气泡图
参考CSDN博客ntuYision：使用R语言ggplot2包绘制pathway富集分析气泡图（Bubble图）:...
【R语言】热图绘制-heatmap+grDevice配色方案
前面给大家介绍了如何使用R自带的heatmap函数+R自带的配色方案来绘制热图 ☞【R语言】热图绘制-heatma...
【R语言】热图绘制-heatmap+gplots配色方案
前面给大家介绍了如何使用R自带的heatmap函数+R自带的配色方案来绘制热图 ☞【R语言】热图绘制-heatma...
【R语言】热图绘制-heatmap+RColorBrewer配色
前面给大家介绍了如何使用R自带的heatmap函数+R自带的配色方案来绘制热图 ☞【R语言】热图绘制-heatma...
ggplot2优雅的绘制高端热图
本节来介绍如何通过ggplot2绘制复杂热图加载R包加载数据数据清洗绘制热图 ggtree绘制聚类树绘制...
R语言绘制小RNA丰度条形图
R语言绘制小RNA丰度条形图小RNA中的丰度分布十分不均，少数种类小RNA的丰度占全部的比例较高，研究重点也都放...