相信GEO(Gene Expression Omnibus)数据库大家应该都不陌生,小编前面也通过三期视频详细的介绍过这个公共数据库,以及如何在GEO里面检索相关的数据。
在GEO数据库里面收录了各种各样的数据,不仅有芯片数据也有测序数据。不仅有DNA数据,表达谱数据,也有甲基化数据和chip-seq的数据。对于表达谱数据来说,一般第一步我们都会去做差异表达分析,去寻找在不同状态下表达值存在显著差异的基因,然后基于这些差异表达的基因再去做一些下游的分析。前面小编也给大家介绍过一些基于TCGA做差异表达分析的方法
那么对于GEO里面的芯片数据,我们也可以通过零代码的方式和R代码的方式来分析。今天小编就给大家介绍一下如何使用GEO数据库自带的工具GEO2R来零代码做差异表达分析。
1.首先我们打开GEO(https://www.ncbi.nlm.nih.gov/)的网站,通过上面视频里面讲到的方法来检索自己感兴趣的数据,这里检索的是黑色素瘤里面敏感还耐药相关的数据
我们以下面这套数据为例
2.设置样本分组
点击了Analyze with GEO2R之后就会跳转到下面的页面,这个时候我们就可以点击Define groups开始设置分组信息了,先输入一个sensitive组。
然后再输入一个resistant组
3.将样本划分到相应的分组
按住ctrl,选中三个sensitive的样本,点击分组里面的sensitive标签,这个时候就会显示这个分组里面有三个样本
同样的方法,我们可以选中剩下的四个样本,点击resistant标签
4.点击Analyze做差异表达分析
5.查看并下载结果
可以点击图片查看火山图,venn图,箱形图等等。
完整的差异表达的结果可以通过点击Download full table 获取。
可能有些小伙伴发现这个表里面没有基因的名字,这个就很尴尬了。不要慌,其实在Download full table边上还有一个Select columns,可以选择需要包含在表里面的信息
我们可以根据自己的需求,选择需要包含的信息,如果勾选symbol就会在最后的表格里面包含基因名字了。选好之后,点击set就OK了。
下面是更改之后的表格
网友评论