美文网首页单细胞学习
【单细胞】Cell-blast

【单细胞】Cell-blast

作者: jjjscuedu | 来源:发表于2021-11-30 07:31 被阅读0次

作为细胞异质性研究的重要工具,单细胞转录组测序技术近年来蓬勃发展,积累了大量研究数据。类似于功能基因研究,对于一个未知的只知道序列的基因,我们就想通过序列比对的方法去预测其功能。那么对于已知表达值的cell,是个什么类型的cell,就需要通过比对去预测其类型(只不过基因的属性是序列,而cell的属性是表达值而已)。Cell BLAST是一个自带高质量参考数据库的scRNA-seq数据检索/注释工具。这个网站由北京大学的研究团队研发,论文发表在在《Nature Communications》:基于深度学习模型的scRNA-seq数据检索和注释的新方法Cell BLAST,以及具备高质量注释的scRNA-seq参考数据库ACA。这一数据库为有效利用现有数据进行细胞注释和跨数据集研究提供了新的工具和资源。

===高质量注释参考库:ACA======

 

Animal Cell Atlas (ACA) 是一个涵盖2,989,582个单细胞、8个物种、27个不同的组织器官的数据库对ACA中的细胞注释进行了详细的整理,并使用Cell Ontology构建了一套结构化的细胞类型标注,用于统一不同数据集中的标注以及支持细胞类型的推断。

我自己把他们的库下载之后,现在应该有9个物种、31个组织、3,563,615个cell,来自99个study。

========克服批次效应==========

 

Cell BLAST使用对抗自编码器进行转录组数据降维,利用对抗学习策略来消除数据集间的批次效应。

对抗自编码器(AAE)是一种可以将自动编码器转换为生成模型的通用方法。自动编码器训练有双重目标 - 传统的重建误差标准和对抗训练标准,它将自动编码器潜在表示的聚合后验分布与任意先验分布相匹配。AAE的体系结构如下图所示,顶行是标准自动编码器,其从潜在代码z重建图像x。底行图表示第二个网络经过训练,可以有区别地预测样本是来自自动编码器的隐藏代码还是来自用户指定的采样分布。

从数学角度来讲,令x为输入,z为具有深编码器和解码器的自动编码器的潜码矢量(隐藏单元)。设p(z)是我们想要对代码施加的先验分布,q(z | x)是编码分布,p(x | z)是解码分布。让p_d(x)为数据分布,p(x)为模型分布。自动编码器q(z | x)的编码函数定义了自动编码器的隐藏代码矢量上的q(z)的聚合后验分布。

因为毕竟不研究机器学习领域,说实话怎么把对抗学习应用的批次效应的消除的,看了2遍paper都没怎么看懂细节。

===cell blast的功能========

cell blast目前可以进行细胞类型鉴定、发现新细胞类型、注释连续细胞状态等。

比如,可以输入表达值矩阵(不过目前只支持最多20000个cell的查询,并且不支持跨物种的查询)。

然后会给返回查询cell的预测功能等信息。

 

同时网站还给高级玩家,提供了Python软件包Cell BLAST(https://github.com/gao-lab/Cell_ BLAST)。用户可以使用软件包在自定义的参考数据集上进行模型训练、检索和定制化分析。目前,我们下载安装好了,正在测试。

本文使用 文章同步助手 同步

相关文章

网友评论

    本文标题:【单细胞】Cell-blast

    本文链接:https://www.haomeiwen.com/subject/gpirxrtx.html