美文网首页R特征变量选择
boruta:用于特征物种的挑选

boruta:用于特征物种的挑选

作者: GPZ_Lab | 来源:发表于2018-03-25 16:47 被阅读106次

笔记内容:

在这个笔记中我不会太详细的解释各类方法的数学及统计学原理(我也不懂),本着方法的价值即应用的原则,对各方法原理进行通俗简单的描述。

  • boruta挑选marker的原理
  • 适用范围
  • 如何解读output

boruta挑选marker的原理

  1. 先对数据中所有的变量(features)随机排列(shuffle),将每个feature的数值顺序打乱,随机排列,构建随机组合的shadow features.
  2. 然后训练一个random forest classifier,对每个feature的重要性(importance)进行打分 ,看feature在原数据中的评分是否比在随机排列中的评分更高。有则记录下来。具体random forest算法见这个链接
  3. 根据一个设定好的迭代次数n(iteration),将features随机排列n次,并对每个feature打分n次。对每个feature计算一个P值,比较n次打分是否存在差异,一般使用bonferroni correction来为多次统计检验进行矫正。P<0.01则认为该feature为confirmed important.
  4. random forest仅提供每个feature的importance打分,来评估每个feature在造模中的贡献大小。但具体这些feature是否有意义?可以通过boruta来构建shadow features,比较其与随机排列的差异,得到其显著性。需要注意的是重要性(importance)和显著性是不一样的。一个feature可能在造模中十分重要,但不一定比随机更显著。

适用范围

对于一些变量特别多,甚至变量数目多过了样本数目的数据,使用传统的regression等方式可能会导致over-fitting,即因为变量过多,将参数限制得只能fit现有的数据,换另外一套同样类型的数据可能拟合程度就很低。这对变量为海量的各级物种的微生物组数据来说十分有用。可以用random forest来挑选可以区分不同分组水平的物种,排除掉那些可能并不是重要的物种,即挑选marker。

由于是找出变量的规律与“随机组合”的不同,所以random forest是all-relevant feature selection,把所有可能携带信息的变量都挖掘出来,挑选出所有与随机排列存在差异的变量,而不是建立一个有最小误差的模型。

如何解读output

R和python均可以实现用random forest挑选features, 具体代码不在这里赘述,其output一般为给出每个feature的importance打分。python中有boruta_py模块用于显著性的挑选(即confirmed feature, rejected feature等),R中为random forest,即仅提供每个feature的importance.

如上图所示,Y轴为各feature的名字,X轴为各feature的importance。一般来说使用importance最高的feature来比较组间差异等其他分析。对于考量“最好纳入多少feature”进行分析的问题,最好选择一个importance的“分水岭”,比如说在上图中,可能会纳入最上三个features, 因为和其他features分的最开。以此达到减少features的目的。但是究竟纳入多少features为合适,仍应该从具体科学问题出发,具体问题具体分析。

更多解读参考这个链接

相关文章

  • boruta:用于特征物种的挑选

    笔记内容:在这个笔记中我不会太详细的解释各类方法的数学及统计学原理(我也不懂),本着方法的价值即应用的原则,对各方...

  • Boruta 特征选择

    机器学习任务中,在正式训练模型之前,我们一般会从原始数据中尽可能多的提取特征,作为模型的输入。 但是特征也不是越多...

  • 在线作图|微生物多样性分析——物种累计曲线

    物种累计曲线 物种累计曲线( species accumulation curves)用于衡量和预测群落中物种丰富...

  • 觉醒物种的16个特征

    与神对话第十册第13章提到觉醒的物种的16个特征: 1、An awakened species sees the ...

  • 红外光谱分析,你了解多少?

    红外光谱分析可用于研究分子的结构和化学键,也可以作为表征和鉴别化学物种的方法。红外光谱具有高度特征性,可以采用与标...

  • 数据挖掘实践任务2

    任务2: 特征工程(2天) 特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理 结...

  • 机器学习入门-降低维度

    降低维度的方法 选择特征从原有的特征中挑选出对结果影响最大的特征 抽取特征将数据从高维度空间投影到低维度空间 选择...

  • 随机森林用于特征选择

    来源:http://www.cnblogs.com/justcxtoworld/p/3447231.html 摘要...

  • Haar特征

    该特征常和AdaBoost结合用于识别人脸。Haar特征很简单,分为三类:边缘特征、线性特征、中心特征和对角线特征...

  • Kraken2安装与数据库构建2022-01-02

    Kraken2是一款快速宏基因组DNA序列进行物种注释的软件。我将其用于测序数据以及序列的物种的物种注释,检查测序...

网友评论

本文标题:boruta:用于特征物种的挑选

本文链接:https://www.haomeiwen.com/subject/ynaxcftx.html