进入新实验室一周多了,一直忙着各种的training,空闲时间都在读文献,老板一直强调“磨刀不误砍柴功”,所以一直也不让我着急上手做课题。但是并不影响老板给我布置任务,首先要熟悉的就是cBioPortal数据库,这个数据库之前我只看过几次,而且也摸不到头绪如何使用,老板推荐我直接看cBioPortal的官方视频教程。所以这篇笔记就是第一个视频的记录。
网站:https://www.cbioportal.org/
首页是这样的:
在这个页面的最上方一行,你可以找到“Tutorials”,这里有很多视频教程(官网的),和PDF格式的教程。当然都是英文的。
举个小例子:我们可以先看看“Data set”部分,点击页面最上方的“data set”,你会进入到一个新的页面:
在这个页面里,对于每一个dataset,都有其相对的Reference,就是参考文献。以及这个dataset里包含的数据类型,以及数量。你可以点击Reference前面的下载图标把整个dataset下载下来。
如果你想下载某一个cancer type的某一个类型的dataset,比如:乳腺癌的RNA-seq数据。你可以在左上方搜索栏里输入“breast”:
这时弹出来的就是在cBioportal里可以下载的Dataset了。
下面回到主页。来更深入的学习这个数据库。搜索brain tumor,在页面左侧找到“CNS/brain”,并点击:
选择第二个dataset:
这里说一下,每个dataset的右侧有三个图标。鼠标停留在i图标上可以看这个dataset的简要信息,蓝色的书的图标是这个dataset的参考文献,最右面的圈圈是进入这个dataset的快捷方式,你也可以点击页面最下方的“Explore Selected Studies”进入dataset:
进入dataset后,是一个新页面,这个页面里包含了这个Dataset所有可用的数据:
这么多东西都是些啥?
往下滚一点:
如果你觉得页面的东西太多了,你不需要看这么多东西,点击某个图表的右上角的叉号,就可以了:
你也可以点击整个页面的右上方的“Charts”,选择你想看的图表:
如果你想单独查看这些data里,EGFR Amplification的样品,可以把这些样品单独提取出来查看,选择“EGFR”,然后点击“select samples”:
这时整个页面就会进行刷新,只显示EGFR扩增突变的样品信息:
接下来在这个基础上,在mutation count图表里用鼠标左击拖住往右,然后松开鼠标,想这样:
这时你会发现页面再次刷新,这时显示的数据就是EGFR扩增突变,并且突变次数>45。你也可以在整个页面的左上方查看你目前显示的数据过滤方式是什么:
现在你可以看到通过上面我们的过滤,目前有16个样品是符合我们的筛选标准,那么如果我想查看这16个病人的具体信息应该怎么办?点击16 samples旁边的头像图标:
这时页面会刷新,会显示出第一个病人样品的所有信息:
你还可以点击页面上方的“clinical data”,查看该样品的临床信息:
将会显示出所有临床相关的所有信息:
下面展示的例子是如何比较两个不同的groups,首先我们先清空所有的过滤条件,通过点击“clear All filters”:
接下来,比如说,我们想根据subtype来分成不同的groups,进行后续的比较:
将鼠标放在这个图表上,右上角会显示三个小图标,点击最右边的三道杠,选择“compare groups”:
这时弹出新页面:
如果你不想要NA这个组:
选好了subtype,就可以进行比较了:
接下来查看突变信息:
这时你也可以取消其中一个subtype,只保留两个groups进行比较:
然后我们可以比较mRNA表达情况:
上面是我们在首页根据study来进行探索的,接下来我们使用第二种方法来查看数据。首先返回首页,选择dataset后,点击“query by gene”:
都选择好后,点击上面的“submit query”,然后会弹出新的页面:
上面每一个灰色竖线代表一个样品,行是基因。不同的颜色代表不同的突变类型。如果你想添加更多的基因进行查看怎么办:
查看每一个基因的发生是否发生在同一个样品里:
添加想比较的临床信息:
这时突变信息会更新:
还有一个重要的点是,上面这个图可以放大或缩小:
如果你觉得上面的突变信息颜色排列比较乱,你可以把样品重新排列一下,让同一个subtype的样品在一起:
把几种subtype分开:
这里的“plot”部分是非常有用的,你可以查看不同突变的散点图:
在“mutation”里查看突变具体信息:
与上面的IDH1不同的是,如果你查看EGFR,会发现有很多种突变:
查看基因表达相关性:
查看不同groups之间的突变是否有重叠:
查看拷贝数变异:
上面每一行是一个样品,右击页面,选择sort by value:
上面深红色部分就是拷贝数多的,颜色浅的代表拷贝数变异少。
如果你想下载数据/图表:
网友评论