美文网首页微生物16s rRNA试读
LDA Effect Size (LEfSe) Analysis

LDA Effect Size (LEfSe) Analysis

作者: 斗战胜佛oh | 来源:发表于2021-05-10 15:42 被阅读0次

    LEfSe[1]是一种用于发现高维生物标识和揭示基因组特征的软件。包括基因,代谢和分类,用于区别两个或两个以上生物条件(或者是类群)。该算法强调的是统计意义和生物相关性。让研究人员能够识别不同丰度的特征以及相关联的类别。

    LEfSe通过生物学统计差异使其具有强大的识别功能。然后,它执行额外的测试,以评估这些差异是否符合预期的生物学行为。具体来说,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非参数因子克鲁斯卡尔—沃利斯和秩验检)检测具有显著丰度差异特征,并找到与丰度有显著性差异的类群。最后,LEfSe采用线性判别分析(LDA)来估算每个组分(物种)丰度对差异效果影响的大小。

    LEfSe软件用于发现两组或两组以上的biomarker,主要是通过非参数因子Kruskal-Wallis秩和检验来实现的。
    运行LEfSe软件主要分三大步骤:第一步:需要把普通的物种、基因等等的丰度信息的表格转化成LEfSe识别的格式。这一步会生成.in结尾的文件
    第二步:这一步也是最关键的一步,统计显著差异的biomarker、统计子组组间差异、统计effect sizes(LDA score),会生成.res格式的文件。如下图所示
    Step1:两组或两组以上的样本中采用的非参数因子Kruskal-Wallis秩和检验检测出biomarker。
    Step2:基于上步的显著差异物种基因,进行两两组之间的Wilcoxon秩和检验,检测出组间差异。
    Step3:线性判别分析(LDA)对biomarker进行评估差异显著的物种的影响力(即LDA score),最终获得biomarker。
    第三步:基于第二大步的数据,绘制各种图片。

    下图展示了LEfSe算法的工作原理:

    51.png

    输入:

    LEfSe分析输入配置文件,可通过分析模块 " LEfSe formatting Generate Input config file for LEFSe Analysis" 得到。

    输出:

    LEfSe分析输出结果文件(表格文件):

    **列为feature

    第二列为各组分丰度平均值中**值的对数值(the logarithm value of the highest mean among all the classes)

    如果feature在组间具有显著性差异,则,

    第三列为平均值最高的组(the class with the highest mean)

    第四列为the logarithmic LDA score

    第五列为检验的p值

    分析模块引用了LEfSE[2](v1.0)软件 ( https://bitbucket.org/biobakery/biobakery/wiki/lefse)。

    LEfSe在线工具地址:https://huttenhower.sph.harvard.edu/galaxy/

    参考文章:
    https://www.jianshu.com/p/35e3f725c554 (介绍在线分析方法)
    https://blog.csdn.net/weixin_44207974/article/details/111570993 (LEfSE原理讲解)
    https://blog.csdn.net/sinat_38163598/article/details/73528079
    http://www.360doc.com/content/17/1115/00/33459258_703906446.shtml
    http://blog.sina.com.cn/s/blog_55cbb3d10102wedp.html (这三篇文章解读LEfse)

    lefse分析(LDA差异贡献分析)
    LDA差异贡献分析,PCA和LDA的差别在于,PCA,它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上,映射时没有利用任何数据内部的分类信息,是无监督的,而LDA是由监督的,增加了种属之间的信息关系后,结合显著性差异标准测试(克鲁斯卡尔-沃利斯检验和两两Wilcoxon测试)和线性判别分析的方法进行特征选择。除了可以检测重要特征,他还可以根据效应值进行功能特性排序,这些功能特性可以解释顶部的大部分生物学差异。使用LefSe软件分析获得,其中显著差异的logarithmic LDA score设为2。

    问题:LDA分析有什么用?
    回答:组间差异显著物种又可以称作生物标记物(biomarkers),该分析主要是想找到组间在丰度上有显著差异的物种。

    这是用于微生物的请配合看博主对应的lefse分析文章来使用。

    文献如下所示:
    [1] Chenhong Zhang, Shoufeng Li, Liu Yang, et al. Structural modulation of gut microbiota in life-long calorie-restricted mice. NATURE COMMUNICATIONS,4:2163,DOI:10.1038/ncomms3163(2013).

    [2] Segata N, Izard J, Waldron L, Gevers D, Miropolsky L et al. (2011) Metagenomic biomarker discovery and explanation. Genome Biol 12: R60.10.1186/gb-2011-12-6-r60 PubMed: 21702898.

    相关文章

      网友评论

        本文标题:LDA Effect Size (LEfSe) Analysis

        本文链接:https://www.haomeiwen.com/subject/tteidltx.html