在单细胞数据分析过程中,我们要分析某个亚群的特征,往往离不开找到与之相关的基因集/通路/转录因子/蛋白网络等,这时候就需要一个基因名与通路/转录因子/蛋白网络的对应关系。我们知道GSEA恰好系统地提供了一些对应关系,这就像巨人的肩膀,有了它我们可以看得更远。
所谓:
吾尝终日而思矣,不如须臾之所学也;吾尝跂而望矣,不如登高之博见也。登高而招,臂非加长也,而见者远;顺风而呼,声非加疾也,而闻者彰。假舆马者,非利足也,而致千里;假舟楫者,非能水也,而绝江河。君子生非异也,善假于物也。
下面我们就来看看GSEA基因集如何批量下载。
GSEA 数据集主页:
我要下载的基因集:
https://www.gsea-msigdb.org/gsea/msigdb/collections.jsp#C7
在浏览器上点击要下载的文件后,确认下载:
在下载的地方,获取下载链接。当然这一步是关键的,懂HTML的话,可以直接在GSEA页面获取下载链接。
下载链接大概是这样的:
https://data.broadinstitute.org/gsea-msigdb/msigdb/release/7.2/c4.all.v7.2.symbols.gmt
我们观察到文件被放在https://data.broadinstitute.org/gsea-msigdb/msigdb/release/7.2/
下了,于是,我们直接复制这个链接到浏览器,回车:
可以看到所有的文件都在这了,我们可以挨个下载,也可以用Python,wget,R等来下载。需要注意的是,在文件列表的结尾作者是给了压缩包的:
有了基因集我们就可以做下游的分析了如:
把基因调节信息映射在细胞图谱上,而不仅仅是基因表达量。
网友评论