美文网首页数据分析
Scanorama ---整合单细胞的大数据

Scanorama ---整合单细胞的大数据

作者: Zane_bio | 来源:发表于2018-07-20 10:13 被阅读250次

    2018-07-19每日文献:Panoramic stitching of heterogeneous single-cell transcriptomic data

    Abstract

    作者提出了一种工具,Scanorama ,利用了全景拼接的算法,将来源于不同技术的单细胞的datasets进行整合。
    使用的数据集:105476 cells from 26 scRNA-seq experiments across 9 different technonlogies to make a single comprehensive reference.

    Data and code availability

    http://cb.csail.mit.edu/cb/scanorama/
    https://github.com/brianhie/scanorama

    Main text

    文中提到:
    Seurat CCA 和 MNN 假设两个数据集之间至少有一种相同的cell type, 或者基因表达谱具有相同的相关结构(??),因此限制了使用。

    Scanorama 跟图像拼接类似,也是根据两个数据集overlap的区域来进行batch-correction 和intergration。 优势:能够保留数据 specific population,也不需要所有的dataset share相同的cell type。信息的丢失??

    利用mutual nearest neighbors matching ,主要能够寻找两个数据集的相似部分,而不是整个大数据中的相似部分。MNN ,针对多于两个datasets的比对,先选择一个作为reference,之后将其他的datasets和这个datasets做integrate,所以整合的效果很看重数据的顺序

    Scanorama 的两个关键性步骤:1.使用SVD(singular value decomposition) 将高维的数据降维。2.基于超敏感局部敏感散列和随机投影树来构建近邻法,节约时间。

    接下来,使用模拟和真实的数据集进行模拟,真实的数据集包括:293T cell and Jurkat cells,HSC data,pancreas data,105476 cells dataset.

    文章重点强调:1.相同的细胞类型能merge在一起,2.保留数据集独特的细胞。3.根据alignment genes来监控两个数据的比对。4.运行速度快。十万细胞只需要25分钟(10核,384GB RAM)。

    20180720-1.png

    疑问:

    1.可以尝试使用它来做整个物种数据的大图,数据的整合可以用,但是对于其normalization的方法以及是否能够找markers存在疑问。
    2.好奇它与MNN 之间的差异,都是使用mutual nearest neighbor,区别到底在哪里??

    需要尝试使用

    相关文章

      网友评论

        本文标题:Scanorama ---整合单细胞的大数据

        本文链接:https://www.haomeiwen.com/subject/ahrtmftx.html