美文网首页
GEO 1-4-123

GEO 1-4-123

作者: 小胡同学ime | 来源:发表于2021-10-21 12:16 被阅读0次

    长脚本管理方式

    1. 分成多个脚本,每个脚本最后保存Rdata,下一个脚本开头清空再加载。
    2. if(F){...}, 则{}里的脚本被跳过,if(T){...},则{}里的脚本被执行,凡是带有{}的代码,均可以被折叠

    GEO来了

    图表介绍

    1. 热图:
    • 输入数据是数值型矩阵/数据框
    • 颜色的深浅表示数值的大小
    • scale
      相关性热图
      差异基因热图


      image.png
    2. 散点图 / 箱线图:

    输入数据是数值型向量和一个字符串向量(有重复值,且取值有限)
    纵坐标(值)——横坐标(群体)

    image
    3. 火山图

    单个基因在两组之间的表达量差异

    • 多基因差异分析,展示 logFCP.Value
    • foldchange(FC):处理组平均值/对照组平均值
      log2FC:处理 / 对照表达量差异倍数的 log 值


      image.png
      image.png
      image.png
    • 通常说的上调、下调基因是指表达量显著上升 / 下降的基因,结合P值。
    • P值越小,越有统计学差异,-log10(P.Value)越大
      ??why火山图的纵坐标是-log10(P.Value):
      image.png
      火山图加标签
    4. PCA图

    主成分分析:组内重复/组间差异

    • 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。
    • 根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。

    *表达矩阵:行是一个基因在所有样本中的表达量,一列是一个样本所有基因为表达量


    image.png

    GEO背景知识+分析思路介绍

    实验设计
    实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象
    • 病变组织vs健康组织
    • 药物处理vs对照组
      有差异的材👉🏻差异基因👉🏻代谢通路/功能注释👉🏻解释基因差异的原理
    三个缩写
    • GSM:用户提交给GEO的样本数据。
    • GSE:一个完整的研究,并提供了整个研究的描述,包括对数据的描述,总结分析。
    • GPL:用户测序使用的芯片/平台

    基因表达芯片:探针的表达量反应基因的表达量

    image
    分析思路
    image.png
    R语言实现
    下载用函数实现:GEOquery::getGEO
    1. 将数据下载到本地
    2. 以对象的形式读入R(eSet)

    注意检查数据的完整性

    • 从eSet中提取表达矩阵exp
    • 从eSet中提取临床信息pd(数据框)
    • 从eSet中提取gpl编号

    limma包用于芯片差异分析

    • 本质上只是R包和函数
    • 准备好需要输入的数据、写对参数
    • 帮助文档

    芯片数据差异分析:limma包
    转录组数据差异分析:limma(voom)、edgeR、Deseq2

    相关文章

      网友评论

          本文标题:GEO 1-4-123

          本文链接:https://www.haomeiwen.com/subject/ukzvpltx.html