今天跟大家分享的是今年五月份发表在Frontiers in Oncology (IF: 4.137) 杂志的一篇文章,这是一篇关于头颈鳞癌中WGCNA分析的一个工作,识别疾病中关键的基因及其功能。
Identification of Hub Genes Associated With Development of Head and Neck Squamous Cell Carcinoma by Integrated Bioinformatics Analysis
整合分析的方法鉴定头颈鳞状细胞癌预后相关的Hub基因
本研究使用TCGA和GSE6631的头颈鳞癌(HNSCC)的表达谱,利用WGCNA和差异基因表达分析方法筛选出29个基因。使用clusterProfiler进行功能注释分析,发现富集到表皮发育和分化等生物学过程。此外,由21个节点构成的PPI中,使用CytoHubba识别了十个hub基因(S100A8,S100A9,IL1RN,CSTA,ANXA1,KRT4,TGM3,SCEL,PPL和PSCA)。与正常组织相比,这些基因均显著下调。且生存分析发现HNSCC患者中CSTA的表达与OS有关。最后,通过HPA数据库验证的在HNSCC中CSTA蛋白质水平下调。
材料方法
TCGA和GEO数据库中的数据集
从TCGA下载544个NHSCC(文章笔误,应为HNSCC)样本,包括500个头颈癌和44个正常组织。从GEO下载GSE6631的表达谱,包含22个肿瘤样品和22个配对的正常样本。并使用WGCNA识别关键的共表达模块。使用limma包计算HNSCC与正常组织之间的差异表达基因(DEG)。筛选|logFC|≥1.0和P.adj<0.05认为是DEG。使用R包clusterProfiler包挖掘基因的功能,使用了STRING构建基因之间的PPI网络。使用R语言survival包对患者的总体生存(OS)与基因之间的关系进行分析。使用HPA的免疫组化信息确定HNSCC与正常组织之间基因的蛋白质表达。
图1. 流程图
结果
1. 加权基因共表达模块的构建
使用WGCNA软件包从TCGA-HNSCC和GSE6631数据集构建了基因共表达网络。总共确定了TCGA数据集中的10个模块(图2A)和GSE6631中的9个模块(图3A)。绘制了模块特征关系的热图,表明TCGA-HNSCC中的棕色模块和GSE6631中的粉红色模块与正常组织的相关性最高(图2B,3B)。
图2. TCGA-HNSCC数据集中与临床信息相关的模块
图3. GSE6631数据集中与临床信息相关的模块
2. DEG列表和共表达模块之间的基因鉴定
筛选|logFC| ≥1.0和 P.adj<0.05认为是差异基因,在TCGA数据集中筛选3,728个DEG(图4A),在GSE6631数据集中共有160个DEG(图4B)。如图4C所示,分别在TCGA数据集的棕色模块和GSE6631的粉红色模块中发现了458和123差异基因。进一步取交集,总共筛选29个共同基因(图4C)。
图4.差异基因与TCGA和GSE6631数据集之间交集
3. 29个基因的功能富集分析
为了进一步了解与DEG列表和两个共表达模块共同的29个基因的潜在功能,使用clusterProfiler软件包进行基因富集分析。29个基因富集在表皮发育和表皮细胞分化等生物学过程(图5)。
图5.棕色模块中基因的基因本体论(GO)富集分析。
4. PPI网络建设与hub基因鉴定
利用STRING数据库对基因进行PPI构建,其中包含21个节点和25条边(图6A)。使用CytoHubba插件的MCC算法从PPI网络中选择的hub基因(图6B)。
图6.蛋白质-蛋白质相互作用(PPI)网络和候选hub基因
5. Hub基因的表达模式,预后价值和蛋白质表达的验证
通过CytoHubba插件筛选出十个hub基因(S100A8,S100A9,IL1RN,CSTA,ANXA1,KRT4,TGM3,SCEL,PPL和PSCA),在TCGA数据库验证了hub基因的表达水平(图7)。与正常组织相比,HNSCC10个hub基因均表现出显著下调。
图7.从TCGA数据库验证HNSCC和正常组织中的十个hub基因的表达水平。
此外,对10个hub基因进行OS和DFS分析,发现在十个hub基因中,CSTA较低的HNSCC患者OS较差(P <0.05)(图8D)。而DFS在HNSCC中十个基因均不显著(感觉这块放着没意义,纯属凑图)。CSTA表达水平的与患者DFS不相关(P <0.05,而图中却为P=0.092)(图9D)。
图8. HNSCC患者中的10个hub基因的OS分析
图9.10个hub基因的DFS分析
此外,基于HPA数据库,与正常组织相比,肿瘤组织中CSTA基因的蛋白质水平显著降低(图10)。结果均证实CSTA的低表达与HNSCC患者的预后较差和总生存有关。
图10.HPA数据库中HNSCC和正常组织中CSTA基因的免疫组化
总而言之,该工作使用WGCNA与差异基因表达分析相结合的方法,发现生存相关基因(CSTA),其挖掘了该hub基因在HNSCC中预后预测的潜力。亮点在于两个数据集分别构建了两个WGCNA,筛选关键模块再结合分别筛选差异基因,共同筛选疾病预后因子。
网友评论