cMAP新版clue的使用——query

作者: Clariom | 来源:发表于2020-05-29 14:58 被阅读0次

之前在Connectivity Map(cMap)的探索应用（二）中提到了两种cmap在线分析网站，一个是build2 ；另一个是CLUE平台。bulid2在cMAP在线分析——旧版build2的使用那期已经讲解过，今天就来简单介绍下CLUE平台的使用！由于CLUE平台的功能很多，会分多期讲解。上一期cMAP新版clue的使用——List Marker已经简单介绍了List Maker的操作方法，今天开始 query的介绍！

cMAP新版clue在线分析，网站：https://clue.io/。

clue的主工具区（Tools）

image

今天主要介绍query，该工具主要用于比较输入signature list与参考数据库中表达谱的相似性。

首先，点击tools—query，进入如下界面，（1）命名本次分析，这命名为Myfirst individual query；（2）在query参数处，选择L1000数据库。

image

Individual query

然后选择individual query，在"UP-regulated genes"加载所要分析的基因list，系统会弹出之前在网站上传的基因list，这里我们选择"mygene_up"；在"DOWN-regulated genes"同理，上传它的配对下调基因"mygene_down"，这是个可选项，如果没有可不选。（这里强调下：基因list的数量只能在10-150之间个基因，上下调加起来不超过300个基因）

image

加载基因list成功后如下图，这时候需要核实自己上传的基因名称有没有问题，网站系统能不能识别，系统给出三种表示：

Invalid gene代表不能识别，说明基因名称不是正确的Entrez ID或HUGO symbol。
Valid gene代表可识别，说明基因名称正确。
Valid but not used in query代表可识别但未收录在L1000数据中。L1000数据库大概收录有10000左右的基因，不包括所有已知基因。

从以下结果来看，加载的数据中没有不被识别的情况，因此数据是合格的，点击submit进行分析。

image

分析自动运行，这过程比较费时间，这次运行大概跑了三十分钟。。。。如下展示，运行结束。

image

batch query（批量）

点击tools—query，进入如下界面，（1）-命名本次分析，这命名为Myfirst individual query；（2）在query参数处，选择L1000数据库。（3）选择batch query

image

然后加载基因集，首先上传UP的基因集，这里弹出选择框，选择提前整理好的"cancer_up"；同理上传DOWN的基因集，这里弹出选择框，选择提前整理好的"cancer_down"。

image

UP和DOWN的基因集成功上传后，发现有警告信息，提醒我基因list里有不能被识别的基因（由于这里随便找了个gene symbol数据做测试，没有提前评估数据，比较懒哈哈，大家自己的数据做之前,先进行EntreID转化，这样保险点），我这边就直接忽略这个警告信息啦，点击sumit，进行分析。

image

同样的，运行时间也需要二三十分钟，运行结束如下：

image

结果线上查看

HEAT MAP查看结果

运行结束后，我们来看看结果，以"Myfirst individual query"为例，点击HEAT MAP

image

得到如下界面，该界面是用热图的形式来呈现整体数据，列为不同的cell ID，行为Perturbagen，且注释有数据库来/名称/描述/ts_pc（不同score阈值条件下的占比）/不同cell score值的中位数。热图颜色代表score值，越红值越高，越灰越低。最左侧是筛选区，根据自己需要设置即可。

image

这个界面非常棒，选择右侧的CLUE Card，然后点击感兴趣的小分子行，还给我们提供该分子记录的化学式结构，以及详细介绍。

image

DETAILED LIST查看结果

image

得到如下结果界面，下面介绍常用的几个参数键：

1-Perturbagen Type代表数据库的分类（小分子成分、敲除、过表达、CMap），看个人分析需要选择适合的库，大部分用此库的目的都在于分析与小分子药物处理表达谱数据之间的相似性，因此Compond用的比较多。

2-右侧以条形图的可视化形式呈现结果，有两个筛选框。"Subset by"有cell lines和Perturbagen type。该功能主要用于在线可视化查看。

image

3.1-当"Subset by"选择以cell lines展示时，summary可以进一步选择不同细胞系；

image

3.2-当"Subset by"选择以Perturbagen type展示时，summary可以进一步选择不同类型的数据；

image

4-除了以上可视化呈现结果外，还可以如下用表格形式呈现，发现共计8559条信息（这是针对所有数据库的结果）。点击1处设置按钮，选择所需要的列，然后点击2处的export即可导出结果。

image

结果线下查阅

按照DETAILED LIST里的内容，只导出compand的结果（共计2429条信息），本地txt文本结果如下，包含最重要的那几个信息，Score值、compond的名称。在很多涉及cmap的文章中，数据的呈现主要涉及Score值、name、MoA和Target。详细的结果附件📎export.xlsx

image

以上结果就展示了我上传的基因list与这2429组小分子处理表达谱数据的相似性。相似程度以score值来评估，score的取值范围在-100到100之间，结果按照从高到低降序排列，数值越靠近100说明该基因list与该条小分子处理记录越相似；数值越靠近-100说明该基因list与该条小分子处理记录越相反。

为了方便大家理解，假如我上传的基因list是一组乳腺癌的signature，以上结果罗列了与2429个小分子的相似性，排名靠前的那些说明表达相似，排名靠后的那些说明表达拮抗，这些显示出拮抗的小分子可以是治疗乳腺癌的候选药物。

最后，使用过程中有疑问的话，可直接参考帮助网页：https://clue.io/connectopedia/

往期回顾

miR-circ靶向关系如何批量预测？

Connectivity Map(cMap)的探索应用（一）

miRNA靶标预测数据的答疑解惑！

Connectivity Map(cMap)的探索应用（二）

cMAP在线分析——旧版build2的使用

Connectivity Map(cMap)的探索应用（三）

cMAP新版clue的使用——List Marker

今天的内容就到这里，更多内容可关注公共号“YJY技能修炼”~~~