可计算单细胞测序各cluster在TCGA样本中的含量的R包--

作者: 误入BioInfor的大黄鸭 | 来源:发表于2022-11-06 01:59 被阅读0次

可计算单细胞测序各cluster在TCGA样本中的含量的R包--
单细胞绘图之堆积柱状图
单细胞之堆积柱状图绘制
批量KEGG、GO注释
找出cluster的差异基因并进行GO和KEGG分析
单基因生信分析流程（11）单细胞测序分析之细胞注释
单细胞多文库数据批读取-R
XenofilteR：PDx 数据分析软件
单细胞多组学新品预告 | 单细胞ATAC+单细胞转录联合检测
内容过硬的单细胞和常规联合分析

2022.11.5初版
看了下日期...整整停更了一年（最近发生了很多事）？！来了来了，虽然大三狗进化成了大四狗，但终究还是只科研狗，更新教程的热情永不退却！！！

image
image

看了标题大家看懂了啥？

image
相信生信功底很深的友友一看标题就迫不及待想得到代码了，而一些生信萌新们（比如在学习这个包之前的我）还在一脸懵逼。我们都知道，GEO里的单细胞测序（scRNA-seq）很少有提供临床信息和生存数据的，即使提供了，由于单细胞测序成本高，每个作者进行的单细胞测序，也只测序几个患者。在这样的情况下，我们很难研究细胞亚群实际的临床意义，很难研究细胞亚群对患者生存、肿瘤分型分期等方面的影响。但是，单细胞测序他真的很香啊，传统转录组测序是混杂的烂组织，里面掺杂着各种各样的非癌组织细胞（免疫细胞、正常细胞、上皮细胞和内皮细胞之类的），而非癌组织细胞的浸润程度对每个样品的转录组测序结果影响很大，因此异质性很高。而单细胞转录组测序，可以流式之后一个个细胞去测，之后用生信进行聚类，可以很清晰看到每个类群的细胞的测序数据。
image
我们都知道，转录组测序（TCGA、GEO、ICGC、GTEx）等数据库的生信分析已经被国人玩烂了，技术层面大家都走得很熟，临床生存预后等研究功底很深。而在这样的条件下，如何结合已经研究成熟的传统转录组测序（bulk RNA-seq）和新颖的单细胞转录组测序（scRNA-seq），是一个很好的文章思路。
image

bulk RNA-seq结合scRNA-seq研究的方法有很多很多，有用marker基因分型的，有用marker基因建模的，很多花样（当然想知道怎么结合的也可以问我，我这两种方法也会嘻嘻嘻），但是我保证我今天讲的这个，是最新的花样！（你魅有玩过的船新版本）

image

image

真的不骗你，PubMed上对这个包的就两篇论文，一篇是包的作者发的NC，另一篇是发的25分的文章（讲真要是也有学员能用这个发25分+（10分+也行了）文章记得挂我个二作行吧求求了）

image

全网只有这唯一一份教程（我查过了这个包的NC文章今年4月末发的，到现在还没有一篇靠谱的教程），希望大家收藏点赞关注三连！！！

接下来我来为大家讲解一下应用场景

image

我们输入的数据有：

一个TCGA的表达矩阵（每一列是一个患者样本，每一行是一个基因的那个矩阵（做过生信的都很熟悉吧））

一个单细胞测序的表达矩阵（每一列是一个细胞，每一行是一个基因的那个矩阵（做过单细胞的不一定熟悉，因为单细胞在输入这块有很多种格式，但是都大同小异，而且Seurat都能输出这种矩阵））

大概是这样的

单细胞表达矩阵中每个细胞对应的信息，比如说：第一个细胞是T细胞，第二个细胞是B细胞，第三个细胞是肿瘤细胞，之类的，做过单细胞都知道，有个叫singleR的东西，用来注释每个细胞是什么细胞的，就是用那个输出的）

大概是这样的

单细胞cluster信息，做过单细胞的都知道，Seurat操作过一遍之后，会得到很多个细胞聚类，cluster0123456789...，操作这个教程时我们需提供每个细胞它在哪一个聚类的信息

大概是这样的

为什么我这里总是说“做过单细胞的都知道”，因为我这篇教程需要有一定的单细胞基础，需要进一步了解教程的友友们建议先过一遍单细胞分析的基础。

所需的材料大概就这么多了

讲了这么多，有些友友还不知道有啥用，对吧

image

简单来说，比如说，我们单细胞分析，得出了32个细胞亚群，我们想计算，每个类型的细胞，它在TCGA样本里的含量，就可以使用这个包

比如说：
我们单细胞分析共聚类出了：
肿瘤细胞-1
肿瘤细胞-2
肿瘤细胞-3
肿瘤细胞-4
肿瘤细胞-5
T细胞-1
T细胞-2
T细胞-3
B细胞-1
B细胞-2
B细胞-3
B细胞-4
B细胞-5
巨噬细胞-1
巨噬细胞-2
巨噬细胞-3
内皮细胞-1
上皮细胞-1
共18种细胞
（题外话，比如说结直肠癌，来源于上皮的，我们聚类到了通常会有很多种上皮细胞，很多个cluster，那我们怎么区分哪些cluster是正常的上皮细胞，哪些是癌细胞呢？我们可以计算每个细胞的cnv，拷贝数变异，来判断哪些cluster是正常的上皮细胞，哪些是癌细胞）