1 首先将代码从github clone到本机
git clone https://github.com/singleron-RD/CeleScope.git
2 在github clone的过程中可能会存在连接超时的现象,如下图所示
gitbub报错没关系,再试一次
成功OK,在目前的工作目录下有一个Celescope的文件夹,成功!
3 将代码clone到本地后,那我们要创建一个用于这个软件的环境
conda create -p /conda_env/singlecell_test --file conda_pkgs.txt #创建一个按照conda_pkgs.txt 配置的名为singlecell_test的环境(conda_pkgs.txt 在Celescope的文件夹下)
过程就不在这里粘贴了,新的环境软件都得重新安装,安了很久,各种报错,换了镜像,改了conda下载timeout的时间终于也是安装成功了,作者也推荐了快速的安装方式,使用mamba,Mamba(黑曼巴)专为加速Conda而生,其改写了Conda下载资源的固有方式,以多线程的方式对网络资源进行并行下载,从而大幅提升Conda效率,感兴趣的小伙伴也可以尝试一下。
conda install mamba
mamba create -n singlecell_test -y --file conda_pkgs.txt
4 创建好环境之后,那就是安装软件了,首先要激活环境,然后进行安装,因为网络问题,总是存在连接超时的问题,所以在pip install的时候设置了连接超时的时间,指定了国内的安装源。
conda activate singlecell_test
pip--default-timeout=1000 install celescope -i https://mirrors.aliyun.com/pypi/simple/
5 装好了系统,我们来测试一下,首先去下载一下测试数据,测试数据网址为singleronbio (synecosys.cn)(该测试数据第一次下载时需要去新格元数据库官网注册一下,为了测试方便直接下载人细胞系数据就好)
wget -c 数据链接
wget -c 数据链接
6 准备好数据之后,我们需要准备一下要用到的基因组,基因组很大,小伙伴们就自己准备吧,人和鼠的教程在这里docs/quick_start.md · Singleron-RD/CeleScope - Gitee.com,教程很详细,直接一步步来就可以了
7 下载好了fastqc文件,准备好参考基因组,我们就可以尝试来跑一下数据了,首先我们需要先写一个mapfile文件,mapfile的写法为第一列为fastqc文件名称前缀,比如R2006412,中间一列为fastqc文件存放路径,最后一列为样本名称,可以起任意你想叫的的名字,在这里我们叫做test,中间用tap健相隔。不理解的盆友也可以去看一下这个网站:docs/rna/multi_rna.md · Singleron-RD/CeleScope - Gitee.com
fastq mapfile8 写好mapfile文件我们来写一下run.sh文件,不同行之间不要忘记换行符,否则会报错,也可参照上边gitee网站内容,写完之后,直接执行sh run.sh命令即可,执行结束后,在工作目录下有个shell文件夹,文件夹下面有个test1.sh文件
run.sh9 执行跑出来的test.sh这个文件就可以进行质控分析了
sh ./shell/test.sh #运行当前shell文件下面的test.sh
10 跑完了,可以看一下都有什么内容,在工作目录下执行tree test,看test下面都有什么文件,只要文件都跑出来了,就说明正常。跑出来的文件虽然各有各的用处,但是正常的我们就会用2个文件,首先是report,其次是表达矩阵,一般来说后续的分析用的都是表达矩阵。
tree11 也可以看下报告包含什么内容
简单的介绍一下,对任意指标感兴趣,可以点击报告上的小问号,会显示对该指标的解释。
a sample:样本的基本信息,包含样本名称,实验方式,软件版本等
b Demultiplexing:包含一些测序信息,比如一共测得多少条reads,有多少条reads可用,数据的Q30指标等,一般valid reads和Q30大于80%就比较正常。
c Trming:过滤掉一些街头序列或者过短的序列,一般Reads Written大于80%,过低的话可能和样本活性和建库相关。
d mapping:比对到基因祖上的序列,一般这个指标大于70%就比较正常,过低的话可能和样本是否污染有关
e FeatureCounts:比对到外显子上的序列,一般这个指标会大于80%,如果是单细胞核测序,这个指标会比较低,因为核里的mRNA,很多没有经过剪切,含有很多内含子序列,所以在核测序的分析方法会和转录组在这一步有一点差异。
f Cells:这一步就是单细胞比较核心的指标了,包含细胞数,检测到的转录本数和检测到的基因数目等信息,关于检测到的基因数目很多人不知道怎么理解,在这里着重解释几个比较关键的指标:mean reads per cell:每个细胞测到的reads数目,这个指标和测序量相关,测序量越大,这个指标的值越高;saturation:测序饱和度指的是检测到相同UMI的比例(理论上每条UMI不同,检测到相同被认为同一条reads测了多次)median gene per cell:每个细胞测到的基因数目;median UMI per cell :每个细胞测出的转录本数目,这个指标和median gene per cell的区别在于一个基因可能会有多个转录本,这也是单细胞基因定量的原理;所以我们在看基因中位值时要结合mean reads per cell和saturation这2个指标看,单细胞技术刚出来的时候,一般大家都测到100k的深度,但是小编认为除了关注的表达量很低的基因(即使加大测序深度也不一定就能检测到,可能压根没捕获到)或者钱特别多实在是没有必要,目前可能大家都检测到50k的深度,算是基因数和测序深度之间比较平衡的深度吧,但是也有越来越多的人只测到20k的深度,其实这个深度对于分群和很多的分析也已经够了,这样的话一个测10000个细胞的样本能省下来几千块的测序费,多测个样本也挺香,当然了还是得看分析需求,在不饱和的情况下肯定测得越深能测到的基因越多。至于饱和深度一般情况下测到百分之七八十就可以了,否则多花一倍的测序费,多出来的基因也比较有限,性价比不高。为了测试,本次测试选取了低测序深度数据
g Analysis : 用seraut进行的分群分析,可以结合下面的marker gene by cluster,看一下每个cluster里边高表达什么基因,对于大部分人来说这个没啥看点,还是会用表达矩阵做下一步分析。
image imageok,单细胞转录组质控分析大致就这些,如果想了解的更深入的话,可以去docs/manual.md · Singleron-RD/CeleScope - Gitee.com看手册,希望能对有需测到要的小伙伴有所帮助,,有问题留言板见吧~~
网友评论