美文网首页立刻学习
数据挖掘20210114学习笔记

数据挖掘20210114学习笔记

作者: 爱吃甜品的鱼 | 来源:发表于2021-03-04 14:49 被阅读0次

    GEO数据挖掘

    图表介绍

    1.热图

    ·输入数据是数值型矩阵\数据框
    ·颜色的变化表示熟知的大小

    2.散点图和箱线图

    箱线图:输入数据是一个数值型向量和一个字符串向量(重复值)
    箱线图是单个基因在两组之间的表达量差异

    3.火山图

    Foldchange(FC):处理组平均值/对照组平均值
    logFoldchange(logFC):Foldchange取log2
    logFC>0,treat>control,基因表达量上升;
    logFC<0,treat<control,基因表达量下降。
    通常说的上调、下调基因是指表达量显著上升 / 下降的基因,结合P值。
    P值越小,越有统计学差异,-log10(Pvalue)越大

    4.主成分分析

    主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。
    根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。

    GEO背景知识

    表达数据实验设计

    实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象
    GSM:用户提交给GEO的样本数据
    GSE:一个完整的研究,并提供了整个研究的描述,包括对数据的描述,总结分析。
    GPL:用户测序使用的芯片/平台。

    基因表达芯片

    探针的表达量反应基因的表达量

    图片.png
    limma包用于表达芯片数据差异分析
    转录组数据差异分析三大R包:limma(voom)、edgeR、Deseq2
    探针注释来源:
    1.Biocoductor的注释包
    2.GPL的soft文件解析
    3.官网下载对应产品的注释表格
    4.自主注释

    相关文章

      网友评论

        本文标题:数据挖掘20210114学习笔记

        本文链接:https://www.haomeiwen.com/subject/jhuufltx.html