整合多个GSE数据集挖掘肿瘤重要基因
都是关于肺癌的数据挖掘文章,而且是整合多个GSE数据集
组织病理上通常将肺癌分为
-
非小细胞肺癌(non-small-cell lung cancer,NSCLC)
-
小细胞肺癌(small cell lung cancer,SCLC)
其中SCLC约占全部肺癌的15%~20%,SCLC的发病与吸烟密切相关,生物学特征为分化程度低、恶性程度高、倍增时间快、侵袭性强、预后差,中位生存期才7个月左右。
其中NSCLC又可以区分为LUSC和LUAD
文献领读
第一篇文献是:Front. Genet., 12 October 2018 | https://doi.org/10.3389/fgene.2018.00469
-
纳入4个数据集: (GSE18842, GSE19804, GSE43458, and GSE62113)
-
使用limma包寻找显著的differentially expressed genes (DEGs)
-
使用RobustRankAggreg (RRA)整合多个数据集的差异分析结果
-
GO和KEGG数据库注释差异分析结果
-
使用STRING数据库搜索差异基因集的PPI网络
-
使用Cytoscape, and Molecular Complex Detection (MCODE)寻找PPI网络的hub基因:OP2A, CCNB1, CCNA2, UBE2C, KIF20A, and IL-6
-
使用 Gene Expression Profiling Interactive Analysis (GEPIA) 网页工具检验hub基因是否具有泛癌效应
-
使用网络数据进行 Kaplan Meier-plotter (KM) 分析hub基因是否具有生存预测能力
第二篇文献是:Mol Med Rep. 2018 May; 17(5): 6379–6386.
-
各个数据集分别做差异分析挑选显著的(DEGs) ,阈值都是 (adjust P-value <0.05 and |log2fold-change (FC)|>1)
-
对4个数据集的差异分析结果找重合部分,韦恩图展现
-
GO和KEGG数据库注释差异分析结果
-
使用STRING数据库搜索差异基因集的PPI网络
-
使用DEGs with a degree score ≥19 阈值判定hub基因:CCNB1, CCNA2, CEP55, PBK and HMMR
-
使用网络数据进行 Kaplan Meier-plotter (KM) 分析hub基因是否具有生存预测能力
第三篇文献是:Published: 26 October 2018
-
纳入7个数据集是:GSE8569, GSE21933, GSE33479, GSE33532, GSE40275, GSE62113, GSE74706
-
对GSE数据集,统一使用limma包,阈值为(|Log2FC| > 2, adjusted p-value < 0.05) 来选择显著差异表达基因
-
把所有7个数据集样本合并使用SVA包的combat函数去除批次效应重新使用limma包选择显著差异表达基因
-
对TCGA数据库的502 tumors and 49 adjacent non-tumor选择差异基因
-
整合GEO和TCGA数据库得到 129 genes (91 up-regulated and 38 down-regulated)
-
与前两个文章同样的下游分析得到hub基因,这次有点多,14个 :CCNB2, PLK1, KIF2C, CENPA, CENPF, BUB1, BUB1B, BIRC5, CENPE, ZWINT, AURKB, CHEK1, EXO1, RAD51, and RFC4
-
对TCGA数据库的LUSC使用GDCRNAtools选择: a total of 124 DElncRNAs (|Log2FC| > 2, FDR < 0.05) and 74 DEmiRNAs (|Log2FC| > 2, FDR < 0.05) ,构建ceRNA network
-
使用 Cytoscape 展示ceRNA network ,共 25 lncRNAs, 14 miRNAs and 14 mRNAs
网友评论