转录组数据分析—PPI网络构建

作者: 生信助手 | 来源:发表于2023-02-28 11:07 被阅读0次

转录组数据分析—PPI网络构建
Hemberg-lab单细胞转录组数据分析（五）
Hemberg-lab单细胞转录组数据分析（六）
Hemberg-lab单细胞转录组数据分析（四）
TCGA差异分析——limma, DEseq2, edgeR
单细胞转录组数据分析|| scanpy教程：使用ingest和B
单细胞转录组数据分析|| scanpy教程：可视化套件
基因家族分析策略
转录组数据库的基本使用（一）-GO数据库
CoRegNet: 共调控网络的重建和整合分析

在得到我们感兴趣的基因集后，除了对其进行GO等富集分析查看与什么重要的生物学通路相关，还可以进行PPI蛋白互作网络（PPI, Protein-Protein Interaction Networks）的构建，查看这些基因之间的联系，进而锁定关键基因。
构建PPI网络一般需要使用string数据库获取蛋白互作信息以及进行互作网络的可视化。下面探究一下STRING数据库的网页和R语言版的使用：

STRING数据库

官网： STRING V11.5

R包：Bioconductor - STRINGdb

STRING是一个已知和预测的蛋白质-蛋白质相互作用的数据库。 相互作用包括直接(物理)和间接(功能)联系;它们源于计算预测、文本关联，以及其他(主要)数据库总结的交互作用。STRING中的相互作用有五个主要来源：基因组预测、高通量实验、（保守的）共表达实验、自动化文本挖掘、数据库相关知识。STRING数据库目前涵盖了来自14'094个物种的67'592'464个蛋白质。

STRING网页版的简单使用

登录STRING网页。在Mutiple proteins中将差异基因名（转录组数据分析—DEseq2差异分析 - 简书 (jianshu.com)粘贴在第一个框中，再选择物种organism为Homo sapiens。

点击SEARCH，会进行匹配string中对应的蛋白，大致预览一下确认正确后，点击CONTINUE即可得PPI图像

出现这种提示不要紧，是因为我们上传的基因太多了，点击CONTINUE即可

在分析界面的Vierws选项下可以选择多种展现方式，Legend选项下展现图像各标记的含义；

Settings选项下有多项参数可以选择，例如minimum required interaction score可以调节可信度（默认为0.400），选择完成后点击UPDATE即可更新图像。

Analysis选项下有PPI网络的相关节点信息与GO、KEGG等富集分析结果

Cluster选项下还可以对PPI网络进行分簇，选择分簇方法（如：kmeans clustering）和分簇数量（如：4）后点击APPLY即可，不同分簇会用不同颜色标注出来

在Export选项下进行数据导出，一般选择下载高分辨率的PNG图片与蛋白互作关系TSV文件（下图画红框），TSV文件用于后续在Cytoscape中进一步可视化PPI网络

STRING的R语言版——STRINGdb的使用

STRINGdb说明书：STRINGdb.pdf (bioconductor.org)或使用命令vignette("STRINGdb")在本地查看说明书。查看STRINGdb的函数帮助文档比较特殊，要用STRINGdb$help("get_graph")的形式。使用STRINGdb时，参数species代表NCBI Taxonomy物种编码，可在此查询：https://cn.string-db.org/cgi/input.pl?input_page_active_form=organisms，其中人为9606，小鼠为10090，大鼠为10116 。

绘制PPI网络

上代码！

library(tidyverse)
library(STRINGdb)                                                 
library(igraph)

data <- read.table("diff_gene_deseq2_FDR.xls",header=T,sep = "\t")
test<-data[1:100,]

######################### 选择STRINGdb类型 #########################
string_db <- STRINGdb$new( version="11.5", #数据库版本。截止2022.5.24最新为11.5
                           species=9606,   #人9606，小鼠10090 
                           score_threshold=700, #蛋白互作的得分 默认400, 低150，高700，极高900
                           input_directory="") #可自己导入数据

######################### 获取基因名对应的STRING_id用于绘制string_PPI #########################
dat_map <- string_db$map(my_data_frame=test, 
                         my_data_frame_id_col_names="gene_id", #使用gene symbol或ENTREZID都可
                         removeUnmappedRows = TRUE )
hits <- dat_map$STRING_id

######################### 绘制PPI网络 #########################
png("string_PPI.png",units="in",width = 10,height = 10, res=400)
string_db$plot_network(hits)
dev.off()

还可以注释一下基因的上下调信息

dat_map_color <- string_db$add_diff_exp_color(subset(dat_map, pvalue<0.01),
                                              logFcColStr="log2FoldChange" )
payload_id <- string_db$post_payload(dat_map_color$STRING_id,
                                     colors=dat_map_color$color)
png("string_PPI_halo.png",units="in",width = 10,height = 10, res=400)
string_db$plot_network(hits, payload_id=payload_id )
dev.off()

STRINGdb还能调用iGraph进行PPI的clustering分簇

clustersList <- string_db$get_clusters(string_ids = hits ,
                                       algorithm  = "fastgreedy" ) 
# plot first 6 clusters.
png("string_PPI_iGraph_cluster.png",units="in",width = 15,height = 10,res=400)
par(mfrow=c(2,3))
for(i in 1:6){
  string_db$plot_network(clustersList[[i]])
}
dev.off()
###可供选择的聚类算法"fastgreedy", "walktrap", "spinglass", "edge.betweenness"</pre>

除了以上功能，STRINGdb还能对基因集进行富集分析，参数category指定要使用的数据库（默认为All），其中Process, Component, Function分别对应GO的BP,CC,MF三个子集

enrichment <- string_db$get_enrichment(string_ids = hits,
                                       category   = "Process" ) 
write.csv(enrichment,"enrichment_GO_BP.csv")</pre>

最后，可使用get_interactions获取蛋白互作信息，再转换stringID为 gene symbol，去除重复（每个相互作用会出现两次），之后导出string_link.csv文件，可在Cytoscape中进一步进行多种可视化操作

dat_link <- string_db$get_interactions(hits)
# 转换stringID为 gene symbol
dat_link$from <- dat_map[match(dat_link$from,dat_map$STRING_id),'gene_id']
dat_link$to <- dat_map[match(dat_link$to,dat_map$STRING_id),'gene_id']  
colnames(dat_link) <- c('node1','node2','combined_score')
# 去除重复
dat_link <- dat_link %>% distinct(node1, node2, .keep_all = T)

write.csv(dat_link,'string_link.csv',row.names = F,quote = F)