美文网首页
机器学习面试题-决策树如何计算特征重要性

机器学习面试题-决策树如何计算特征重要性

作者: bd7e4a65be2b | 来源:发表于2020-05-18 23:26 被阅读0次

关注微信公众号“百面机器学习”获得更多机器学习面试题

问题引入

笔者在所有的面试中都会被问答到项目中的具体特征的情况,包括特征是如何得到的,为啥这个特征有效,做了哪些特征筛选,特征重要性是如何看的,和线性回归、逻辑回归这种广义线性模型不一样,简单的决策树的特征重要性又没有类似线性回归的系数可以用来说明特征重要性,那么,树模型的特征重要性是怎么计算的呢?

问题解答

对于简单的的决策数,sklearn中是使用基尼指数来计算的,也就是基尼不纯度,决策数首先要构造好后才可以计算特征重要性,当然,我们在构建数的过程中已近计算好了特征重要性的一些值,如基尼指数,最后我们得到特征重要性的话,就直接将基尼指数做些操作就可以了。在sklearn中,feature_importances_应当就是这个Gini importance,也是就

N_t / N * (impurity - N_t_R / N_t * right_impurity
                    - N_t_L / N_t * left_impurity)

其中,N是样本的总数,N_t是当前节点的样本数目,N_t_L是结点左孩子的样本数目,N_t_R是结点右孩子的样本数目。impurity直译为不纯度(基尼指数或信息熵),这里的实现的是基尼指数。假如我们有样本如下:

X = [[1,0,0], [0,0,0], [0,0,1], [0,1,0]]
y = [1,0,1,1]

我们得到的决策数是这样子的,那么可以算出

X0 的 feature_importance = (2 / 4) * (0.5) = 0.25
X1 的 feature_importance = (3 / 4) * (0.444 - (2 / 3 * 0.5)) = 0.083
X2的feature_importance = (4 / 4) * (0.375 - (3 / 4 * 0.444)) = 0.042

上述三个值加起来不位1,所有我们再归一化就可以了

https://www.jianshu.com/p/cfd7e2d385da
https://blog.csdn.net/DKY10/article/details/84843864

相关文章

  • 机器学习面试题-决策树如何计算特征重要性

    关注微信公众号“百面机器学习”获得更多机器学习面试题 问题引入 笔者在所有的面试中都会被问答到项目中的具体特征的情...

  • 使用随机森林判定特征的重要性

    随机森林算法是我们经常使用到的一种集成式的机器学习算法,由多棵决策树组合而成。那么怎么使用随机森林判定特征的重要性...

  • 李航-第5章决策树

    决策树的学习算法包特征选择、决策树的生成与决策树的剪枝过程。决策树学习应用信息增益准则选择特征。信息增益大的特征具...

  • 用于分类的决策树的理解

    决策树学习的三个步骤:特征选择,决策树生成,决策树剪枝。 特征选择 特征选择在于选取对训练数据具有分类能力的特征。...

  • 学习笔记:sklearn-决策树

    分类树数据准备 查看特征名称 查看类别名称 查看特征重要性 查看特征对应的重要性 决策树随机分支 splitter...

  • 学习决策树,随机森林的笔记

    Q1: 决策树是如何找到最优的分类特征的?A: 通过计算"信息增益","信息增益比",数值大的特征,是用作划分的特...

  • 【转】随机森林做特征选择

    特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明...

  • 决策树算法

    决策树 决策树也是经常使用的数据挖掘算法,其不用了解机器学习的知识,就能搞明白决策树是如何工作的。 决策树算法能够...

  • 机器学习笔记--决策树

    这里开始机器学习的笔记记录。今天的这篇是一个分类方法--决策树。 决策树优点:计算复杂度不高,输出结果易于理解,对...

  • 决策树/DT(Decision Tree)

    决策树作为一种解释性好、训练效率高、理解简单的机器学习算法,在特征选择等领域用的非常广泛。 算法释义 决策树通过递...

网友评论

      本文标题:机器学习面试题-决策树如何计算特征重要性

      本文链接:https://www.haomeiwen.com/subject/aammohtx.html