核心基因筛选
本次例子为GEO 数据库筛选:
概念:1、GEO数据库中的命名:G-SE:GEO Series 系列 G-PL:GEO platform平台 G-SM:GEO sample样本 很多的样本系列,可能来自不同的平台,一个平台可能有不同的样本:例如一个样本,用不同的测序平台测序,得出同一个系列,此时我们会看看测序平台例如是那个年代的,什么样本,最后处理一个系列的单次实验的数据。
例子: 依据GSE38959为例尝试如下:
1. 进入GEO数据库,输入GSE38959查找:https://www.ncbi.nlm.nih.gov/geo/
2. 看看实验设计:30个异常,13个正常对照[if !vml]
GEO2R分析原理:
出来的结果的结果拷贝到一个txt文件中。用Excel打开如下:
1. 依据adj.p.value<0.05可以认为是差异基因。2. 依据log2FC>2上调基因;<-2下调基因。
]2. http://bioinformatics.psb.ugent.be/webtools/Venn/画venn图。
3. https://david.ncifcrf.gov/GO和KEGG分析 P<0.05显著富集,剩余的删除,之后count>10剩余删除。排序后将go-BP显著富集的基因取出来做蛋白互作分析,如下:
4. http://string-db.org/蛋白互作 同时保存的.tsv 可以在cytoscape进行,之后选出节点多的前十个基因进行生存分析。
5. http://kmplot.com/analysis/ 生存分析 某一个基因的癌症分析P<0.05有意义
网友评论