Celescope 单细胞测试笔记

作者: sucycy | 来源:发表于2022-04-15 14:47 被阅读0次

Celescope 单细胞测试笔记
celescope的下载和安装
CeleScope分析单细胞转录组数据
celescope操作指南
CeleScope分析单细胞免疫组库数据
celescope安装中的问题
学习一篇NC的单细胞文章（一）：质控
《陈巍学基因》笔记(56)10X单细胞测序技术
测试一下笔记
单细胞多组学系列学习笔记汇总

1 首先将代码从github clone到本机

git clone https://github.com/singleron-RD/CeleScope.git

2 在github clone的过程中可能会存在连接超时的现象，如下图所示

gitbub报错

没关系，再试一次

成功

OK，在目前的工作目录下有一个Celescope的文件夹，成功！

3 将代码clone到本地后，那我们要创建一个用于这个软件的环境

conda create -p /conda_env/singlecell_test --file conda_pkgs.txt  #创建一个按照conda_pkgs.txt 配置的名为singlecell_test的环境（conda_pkgs.txt 在Celescope的文件夹下）

过程就不在这里粘贴了，新的环境软件都得重新安装，安了很久，各种报错，换了镜像，改了conda下载timeout的时间终于也是安装成功了，作者也推荐了快速的安装方式，使用mamba，Mamba（黑曼巴）专为加速Conda而生，其改写了Conda下载资源的固有方式，以多线程的方式对网络资源进行并行下载，从而大幅提升Conda效率，感兴趣的小伙伴也可以尝试一下。

conda install mamba
mamba create -n singlecell_test -y --file conda_pkgs.txt

4 创建好环境之后，那就是安装软件了，首先要激活环境，然后进行安装，因为网络问题，总是存在连接超时的问题，所以在pip install的时候设置了连接超时的时间，指定了国内的安装源。

conda activate singlecell_test
pip--default-timeout=1000 install celescope -i https://mirrors.aliyun.com/pypi/simple/

5 装好了系统，我们来测试一下，首先去下载一下测试数据，测试数据网址为singleronbio (synecosys.cn)（该测试数据第一次下载时需要去新格元数据库官网注册一下，为了测试方便直接下载人细胞系数据就好）

wget -c 数据链接
wget -c 数据链接

6 准备好数据之后，我们需要准备一下要用到的基因组，基因组很大，小伙伴们就自己准备吧，人和鼠的教程在这里docs/quick_start.md · Singleron-RD/CeleScope - Gitee.com，教程很详细，直接一步步来就可以了

7 下载好了fastqc文件，准备好参考基因组，我们就可以尝试来跑一下数据了，首先我们需要先写一个mapfile文件,mapfile的写法为第一列为fastqc文件名称前缀，比如R2006412，中间一列为fastqc文件存放路径，最后一列为样本名称，可以起任意你想叫的的名字，在这里我们叫做test,中间用tap健相隔。不理解的盆友也可以去看一下这个网站：docs/rna/multi_rna.md · Singleron-RD/CeleScope - Gitee.com

fastq

mapfile

8 写好mapfile文件我们来写一下run.sh文件，不同行之间不要忘记换行符，否则会报错，也可参照上边gitee网站内容,写完之后，直接执行sh run.sh命令即可，执行结束后，在工作目录下有个shell文件夹，文件夹下面有个test1.sh文件

run.sh

9 执行跑出来的test.sh这个文件就可以进行质控分析了

sh ./shell/test.sh  #运行当前shell文件下面的test.sh

10 跑完了，可以看一下都有什么内容，在工作目录下执行tree test，看test下面都有什么文件，只要文件都跑出来了，就说明正常。跑出来的文件虽然各有各的用处，但是正常的我们就会用2个文件，首先是report，其次是表达矩阵，一般来说后续的分析用的都是表达矩阵。

tree

11 也可以看下报告包含什么内容

简单的介绍一下，对任意指标感兴趣，可以点击报告上的小问号，会显示对该指标的解释。

a sample：样本的基本信息，包含样本名称，实验方式，软件版本等

b Demultiplexing：包含一些测序信息，比如一共测得多少条reads，有多少条reads可用，数据的Q30指标等，一般valid reads和Q30大于80%就比较正常。

c Trming：过滤掉一些街头序列或者过短的序列，一般Reads Written大于80%，过低的话可能和样本活性和建库相关。

d mapping：比对到基因祖上的序列，一般这个指标大于70%就比较正常，过低的话可能和样本是否污染有关

e FeatureCounts:比对到外显子上的序列，一般这个指标会大于80%，如果是单细胞核测序，这个指标会比较低，因为核里的mRNA，很多没有经过剪切，含有很多内含子序列，所以在核测序的分析方法会和转录组在这一步有一点差异。

f Cells：这一步就是单细胞比较核心的指标了，包含细胞数，检测到的转录本数和检测到的基因数目等信息，关于检测到的基因数目很多人不知道怎么理解，在这里着重解释几个比较关键的指标:mean reads per cell：每个细胞测到的reads数目，这个指标和测序量相关，测序量越大，这个指标的值越高；saturation：测序饱和度指的是检测到相同UMI的比例（理论上每条UMI不同，检测到相同被认为同一条reads测了多次）median gene per cell：每个细胞测到的基因数目；median UMI per cell ：每个细胞测出的转录本数目，这个指标和median gene per cell的区别在于一个基因可能会有多个转录本，这也是单细胞基因定量的原理；所以我们在看基因中位值时要结合mean reads per cell和saturation这2个指标看，单细胞技术刚出来的时候，一般大家都测到100k的深度，但是小编认为除了关注的表达量很低的基因（即使加大测序深度也不一定就能检测到，可能压根没捕获到）或者钱特别多实在是没有必要，目前可能大家都检测到50k的深度，算是基因数和测序深度之间比较平衡的深度吧，但是也有越来越多的人只测到20k的深度，其实这个深度对于分群和很多的分析也已经够了，这样的话一个测10000个细胞的样本能省下来几千块的测序费，多测个样本也挺香，当然了还是得看分析需求，在不饱和的情况下肯定测得越深能测到的基因越多。至于饱和深度一般情况下测到百分之七八十就可以了，否则多花一倍的测序费，多出来的基因也比较有限，性价比不高。为了测试，本次测试选取了低测序深度数据

g Analysis : 用seraut进行的分群分析，可以结合下面的marker gene by cluster，看一下每个cluster里边高表达什么基因，对于大部分人来说这个没啥看点，还是会用表达矩阵做下一步分析。