在之前的文章中为大家介绍了Seurat这款单细胞分析软件(可在本文末尾点击查看),今天为大家介绍如何对分群后的细胞进行细胞类型注释。细胞类型注释作为单细胞研究中最重要的一个环节,大致分为人工注释和软件注释。
人工注释
人工注释需要借助文献检索marker或者结合常用的注释数据库,例如两个常用的数据库:
CellMarker(http://bio-bigdata.hrbmu.edu.cn/CellMarker/);
panglaoDB(A Single Cell Sequencing Resource ForGene Expression Data,https://panglaodb.se/)。
人工注释比较适合有经验的科研工作者,但随着单细胞的研究越来越多,可提供给我们的细胞类型的marker信息也越来越丰富,人工注释比较耗费精力,优点在于准确性相对较好。
软件注释
软件自动化注释一般是使用软件内置数据集进行注释,操作相对简单。但是准确性会相对较差,不过可以作为一种很好的辅助注释手段。目前用于单细胞类型鉴定的工具有很多,其中singleR是各方面综合来看较为优秀的软件。
SingleR简介
关于SingleR软件的报道,最早来自一篇肺部巨噬细胞研究的单细胞论文,这篇文章作者用多份实测数据证明了SingleR软件可以较好基于单细胞转录组数据对各个细胞进行鉴定。该算法基础的工作原理很简单:准备一套参考数据集,参考数据中每个样品被人工注释为一种主要的细胞类型,及相应的细胞亚型标签;然后通过差异表达的方法或方差分析的方法获取到已知细胞类型的variable genes,在variable genes 中计算每一个单细胞与参考数据集中每一个样品的spearman相关系数,同一细胞类型下多个参考样品的相关系数的80%分位数作为这个单细胞注释到此细胞类型的得分;保留与参考细胞类型注释最大得分差值在0.05以内的参考细胞类型及,重新计算 variable genes,再次计算测试细胞与剩下参考细胞类型集的相关系数,迭代,直到只剩下两种细胞类型时,保留相关性得分最高的已知细胞类型,为此细胞注释到的细胞类型。
目前SingleR内置的数据库有7个,其中包括5个人类的数据库:HumanPrimaryCellAtlasData、BlueprintEncodeData、DatabaseImmuneCellExpressionData、MonacoImmuneData、NovershternHematopoieticData,2个小鼠的数据库ImmGenData、MouseRNAseqData,可应用于相应物种及组织的单细胞结果注释。
图1 SingleR单细胞注释工作原理SingleR操作步骤
具体操作步骤如下:
1、SingleR的安装
SingleR这个包本身并不会自带数据库,而是专门的把数据库文件丢给了celldex包。所以还需要安装celldex包:
2、加载R包和所需的数据集
3、读取上一节保存的RDS文件,并将seurat对象转换为SingleR分析所需的SingleCellExpriment对象。
4、注释细胞
注释时labels一般选择main labels,大的细胞类型相对准确度要高一些。
5、提取并保存注释信息
6、将细胞注释信息添加到seurat对象中
之后就可以根据注释后的细胞类型对单细胞数据进行可视化等操作。
图2 聚类分群注释图以上只是SingleR包build-in-reference的使用,还有许多功能后续会继续介绍,尽请期待。
相关阅读
刘静 | 文案
网友评论