美文网首页机器学习
2020机器学习决策树(3)

2020机器学习决策树(3)

作者: zidea | 来源:发表于2020-08-28 20:33 被阅读0次

    使用 RF(随机森林) 建立计算样本间的相似度

    原理:若两个样本同时出现在相同叶节点的次数越多,则两者越相似
    算法

    • 记样本个数为 N,初始化N \times N的零矩阵 S S[i,j]表示样本 i 和样本 j 的相似度
    • 对于 m 颗决策树形成随机森林,遍历所有决策树的所有叶子节点:
      • 即该叶子节点包含的样本为 sample[1,2,...,k] 则 S[i,j]累1.
        • 样本 i,j \in sample[1,2,\dots,k]
        • 样本 i,j 出现在相同叶子节点的次数增加1次
    • 遍历结束,则 S 为样本间相似度矩阵

    使用随机森林计算特征重要度

    • 随森林是常用的衡量特征重要性的方法。
      也就是如果某一个特征作为分类依据被使用比较多,那么就说明这个特征根 y 的相关性比较强。所以通过决策树,??
      • 计算正例经过的节点,使用进过节点的数目、经过节点的 gini 系数和等指标。或者,随机替换一列数据,重新建立决策树,计算新模型的正确变化率,从而考虑这一列特征的重要性。
    • selection frequency
    • gini importance
    • permutation importance

    相关文章

      网友评论

        本文标题:2020机器学习决策树(3)

        本文链接:https://www.haomeiwen.com/subject/ughwehtx.html