看了生信人公众号的推文,才发现张泽民老师的研究涉猎非常广,其中很多生信分析和分析工具我豆豆很感兴趣,近几天计划把老师的研究捋一捋,今天先就选出来的一些感兴趣的文章进行阅读。原文摘录如下
2020发表的“SciBet as a portable and fast single cell type identifier”,是一款单细胞细胞类型注释软件。除了速度优势及可解释性强之外,其训练后的模型大小也非常小,另外还提供了基于JavaScript实现的在线版SciBet(http://scibet.cancer-pku.cn/)。用户无需上传自己的数据,上传的是预训练模型或本地加载自定义训练集即可在浏览器中快速完成测试集中的细胞类型鉴定,并得到可视化分类结果。
2020年发表的“An entropy-based metric for assessing the purity of single cell populations”,作者提出了一种单细胞类群纯度评估新方法。
2020年Cell research 上的“Reconstruction of cell spatial organization from single-cell RNA sequencing data based on ligand-receptor mediated self-assembly”的文章是scRNA-seq结合空间转录组的应用。
2020年“Genomic basis for RNA alterations in cancer”的研究论文,将RNA和DNA测序分析整合在一起,将在癌症研究中发挥强大作用。
2021纯单细胞数据挖掘发表在Cell杂志上的篇名为“A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells”的文章。
2021年Genome Biology上,篇名为“iMAP: integration of multiple single-cell datasets by adversarial paired transfer networks”的研究。一个用于单细胞数据整合的工具,基于python语言编写。
最感兴趣的2020年的SciBet,阅读记录如下
abstruct
针对单细胞 RNA 测序数据,预测新测序细胞的细胞身份。
总结:不是完全等同于注释,公众号上此处不太严谨。
introduction
面对爆炸性的数据增长,一个主要挑战是给定一个新测序的细胞可靠和快速的细胞类型识别。使用注释标签对新生成的数据进行有监督的细胞类型注释比无监督方法更可取,因为无监督方法往往更加费力且计算量更大。使用多项分布模型和最大似然估计来开发 SciBet,最后,我们提供本地和基于 Web 的 SciBet 实现。
总结:主要讲工具是预测类型的,速度是最大优势,提供本地版和web服务。
result
Overview of the algorithm
SciBet 算法由 4 个步骤组成:预处理、特征选择、模型训练和细胞类型分配(分别为图 1a-d)。
image.png
预处理:对于 scRNA-seq 的训练数据集,我们使用常见的预处理管道(方法)获得了归一化的表达矩阵,并计算了具有相同细胞类型的细胞的平均表达值,这是以下步骤所需的(图 1a)。
特征选择:因为并非所有基因都对此类分类问题同样有用,我们开发了E-test,选择细胞类型特异性基因,首先应用信息论中的统计熵来衡量泊松-伽玛混合分布基因表达的离散程度,熵可以直接通过平均基因表达的对数来估计。我们提出了零假设,其中假设所有细胞类型都相同,因此具有相同的均值和熵。然后提出了一个统计量ΔS作为总熵差,来衡量观察到的平均表达与零假设下的平均表达的偏差。在 E-test 特征选择的标准下,Δ S较大的基因往往更具有细胞类型特异性,并将通过 E-test 保留用于下游模型训练(图 1b ))。
训练:假设不同基因的表达丰度在给定的细胞类型中呈多项式分布,从而对不同基因的表达进行建模。多项式模型中每个基因的参数(x)可以通过上述在每种细胞类型中标准化后的平均基因表达直接估计。
这些标准化参数(x)也代表了给定细胞类型中每个基因的表达概率(图 1c和方法)。为训练集中的每种细胞类型建立了多项式模型,构成了 SciBet 的训练模型。
注释:对于要由 SciBet 注释的未知细胞,我们使用其信息基因的表达谱,并计算所有多项式模型的似然函数。SciBet 选择模型在描述 RNA 谱分布时实现最高似然/预测能力的细胞类型(图 1d)最大似然估计计算如下: image.png
。
总结:可以说写的非常清晰了,预处理就是常规的标准化,特征选择的方法是利用假设检验,利用熵值选择能拒绝原假设的gene,完成特征选择。选择出的特征在不同类型的细胞中表达量均不同,假设选出的特征是3个基因,这样对每个单一的细胞类,xG1+yG2+z*G3=细胞类型1(这是个多项式所以说”假设不同基因的表达丰度在给定的细胞类型中呈多项式分布“),其他细胞类型同理,知道xyz的值,就能特定的确定一个细胞的类型。这样就能对每个细胞类型建模。有了模型,训练就是个非常容易,的,根据最大似然估计可以确定具体应该是哪个类型。
Performance assessment by cross-validation
为了对这种多标签分类问题进行定量测试,应用了交叉验证
总结:机器学习的标准流程
Real-world applications of SciBet
使用一个或多个 scRNA-seq 数据集进行训练和测试
总结:机器学习的标准流程
Web-based implementation of SciBet
可以直接下载训练好的模型,新的数据直接拿来预测就行:从 19个公开数据库收集的约 100 个注释良好的 scRNA 数据集,使用 SciBet 为每个数据集生成训练模型。训练模型非常小,可以与本地 SciBet 软件包一起轻松下载。例如,具有 100 种细胞类型和 1000 个特征基因的模型的大小将不超过 1 MB。
web服务:不需要测序文件上传到远程服务器。 用户可以使用我们的web服务器上传自定义参考或测试数据的单元类型预测。 对于需要长时间数据传输的大型查询数据集,我们还提供了一个轻量级的独立包,通过一个简单的命令来本地构建基于web的工具。 通过这种方式,数据文件可以在本地直接在浏览器中读取和处理,从服务器传输到浏览器的模型只需要很小的尺寸,从而达到了前所未有的速度和方便。
这还搞出个中文来,button上也没见写,回头研究下。 image.png
网友评论