美文网首页单细胞测序专题集合单细胞转录组单细胞
单细胞测序scRNA-seq技术学习笔记(二)——生信分析流程思

单细胞测序scRNA-seq技术学习笔记(二)——生信分析流程思

作者: 2576710931dd | 来源:发表于2019-10-08 22:37 被阅读0次

流程概述

  • 数据下载
  • 数据整理
    数据格式:行名是基因名, 列名是样例名
  • 质控和数据过滤
    过滤掉检测到细胞数目太少,基因太少的数据
  • PCA分析
    传统线性降维方法
    优点:运行速度快
  • TSNE分析
    新的非线性降维方法,保留更加有代表性的属性信息,更能体现细胞间的差异
    缺点:运行速度慢
    找到基因的聚类cluster,将表达相关的基因聚集在一起
  • Marker基因
    类似
  • 注释细胞类型
    • 软件
    • 文献
    • 结合分析经验
  • 细胞轨迹分析
    哪些细胞先出现,哪些细胞后出现,分析细胞的分化过程和程度
  • GO 富集分析和圈图
    功能和通路的富集
  • KEGG 富集分析和圈图
    功能和通路的富集

具体操作

一、数据下载

NCBI选择GEO数据库
GEO数据库主页

二、数据整理,得到矩阵

数据整理,得到矩阵
样本基因数目矩阵

三、质控与数据过滤

3.1 质控

质控:小提琴图
  • 去掉游离的点的值
  • 样本量大-->点的跨度大-->可以放宽筛选条件
  • 过滤掉线粒体基因


    测序深度vs线粒体百分比

    此图中,因为线粒体基因都被过滤掉,所以线粒体基因数为0,测序深度与线粒体百分比没有关系


    测序深度vs基因数目
  • 此图显示,基因数目与测序深度呈现正相关关系,相关系数为0.63(相关性较高)
  • 随着测序深度增大,基因数目也会趋向于饱和

3.2 数据过滤

基因在所有细胞的表达量波动情况
  • 基因在所有细胞的表达量波动程度
    • 由于我们后续需要做PCA和TSNE的聚类分析,所以需要筛选出那些在所有样品里面表达量波动比较大的基因(红色的点),以便于找出细胞间的差异
    • 此处挑选了1500个基因,并标注好波动最大的前10个基因的名称

四、PCA主成分分析

PCA主成分分析
  • 得到每个PC(主成分)相关对的基因
    • 绝对值越大 相关性越大
    • 这里是挑选了那些与主成分相关性较大的基因 也就是每个PC所对应的基因

数据降维:

  • 1500个基因对应着1500维的是数据,需要降维后才能画图

  • 降维到20个PC

  • 降维后的到PC1和PC2等

  • 做综合性的考虑。例如对PC1和PC2,画一个PC1和PC2关系图


    PCA图
  • 每个点代表一个细胞

  • 一种颜色代表一个样品

绘制PCA热图

PCA热图
PCA热图
  • 基因在所有细胞里面的表达谱情况
  • 黄色代表高表达的情况

由于TSNE聚类分析时需要筛选PC,需要对PCA得到的结果进一步筛选,但是PCA又不能选择地太少(会使得全部基因的信息量丢失),选择一个折中的方法,通过图形选择那些p-value小于0.05的关键PC:

此处选择了p-value小于0.05的20个PC

PCA主成分分析 主成分的p值
  • 每一条曲线代表一个主成分PC,相当于一个基因的集合
  • 1500个PC降维到20个PC
  • 20个PC进行数据转换,就能代表原本1500个PC的信息量
  • p值:实际PC中的一个关键基因的数目理论PC中可能存在的基因数目差异
  • 所以,PC的p值越小,意味着得到的关键基因越多,即这个PC越重要——p-value越小,PC越重要

五、tSNE聚类分析

tSNE聚类分析
  • 对细胞进行聚类,总共有15个cluster
  • 其中cluster 10为B细胞(后续做差异找Marker、GO、KEGG都是针对这个cluster)


    每个样品的cluster
  • 表格展示哪些细胞属于哪些cluster

聚类热图:

聚类热图
  • 黄色代表高表达,cluser的黄色区域对应的基因代表着此cluster的Marker基因
  • 只是对最主要的Marker基因进行了图形化

六、marker基因

寻找marker基因
Marker基因的判定标准:
  • 调整后的p值<0.05
  • avg_logFC的绝对值 > 0.5 (至少1.5倍的差异)
    • 一般转录组分析的时候,avg_logFC的绝对值 > 1
    • 由于此处是肿瘤细胞,avg_logFC的绝对值 > 1得到的基因数目会太少,所以需要avg_logFC的绝对值 > 0.5得到差异基因

此处针对以cluster10,即B细胞的差异(Marker)基因进行分析:
选出两个基因进行绘图(其中横坐标为各个cluster,纵坐标为对应基因的表达水平)

marker基因的小提琴图

绘制聚类图展示查看差异情况:

注意B细胞聚类cluster10的位置,红色方向表示基因的高表达


marker基因在各个cluster的散点图

绘制气泡图展示查看差异情况:

marker在各个cluster的气泡图

其中,横坐标代表cluster10的Marker基因,纵坐标代表各个cluster
结论:

  1. 前五个基因,在cluster10中的表达是上调的
  2. 后五个基因,在cluster10中的表达是下调的

七、注释细胞类型

这部非常难


注释细胞类型

注释的方法:

  • 软件(一个R包)预测
  • 结合文献
  • 结合被测序的细胞、组织、肿瘤类型进行注释

可能有多个cluster被注释上相同的细胞类型

八、细胞轨迹分析

这步也非常难


对cluster做的细胞轨迹分析
对注释出的细胞类型做的细胞轨迹分析

其中:

  • 每个点代表一个细胞
  • 一种颜色代表一种聚类
  • 数字表示分支点

需要根据软件预测、经验、文献、对这个细胞测序过程的理解,判断哪个细胞可能在前面分化出来

有经验的情况的分析思路:
根据前面打的研究、经验,知道哪种细胞在肿瘤中最先出现,预判细胞轨迹的起点(树根)

没有经验,不知道细胞出现先后的分析思路:
猜测:细胞种类单一、数量较少 ---分化---> 细胞种类多,数量多

九、GO功能富集

对Marker基因进行GO分析

基因名字转换基因id

基因名字转换基因id
  • 此处挑选了cluster10 B细胞的Marker基因进行分析
  • 在原本Marker基因的基因名、avg_logFC的两列情况下,增加一列基因转换的ID entrezID,以便于后面R包的使用
    GO富集分析
  • 得到的结果,都富集到B细胞、跟免疫相关的功能通路也很多,说明实验和分析都做得很好
  • 红色越深,富集越显著
  • 柱子长度或圆圈大小,代表基因的数目
  • 放一个图即可
    圈图
    GO圈图
    发文章的时候用左边的图更直观

十、KEGG通路富集

KEGG通路富集
  • 柱状图横坐标代表基因数目,气泡图表示基因的比例
  • 气泡图中圆圈大小,代表富集到每个通路上基因的数目
  • 纵坐标代表通路名称
  • 颜色越红,在该通路上富集的显著性越高
    KEGG圈图:
    KEGG圈图
  • 学习自“生信自学网”等网站

相关文章

网友评论

    本文标题:单细胞测序scRNA-seq技术学习笔记(二)——生信分析流程思

    本文链接:https://www.haomeiwen.com/subject/kyvlpctx.html