使用 RF(随机森林) 建立计算样本间的相似度
原理:若两个样本同时出现在相同叶节点的次数越多,则两者越相似
算法
- 记样本个数为 N,初始化的零矩阵 S 表示样本 i 和样本 j 的相似度
- 对于 m 颗决策树形成随机森林,遍历所有决策树的所有叶子节点:
- 即该叶子节点包含的样本为 sample[1,2,...,k] 则 S[i,j]累1.
- 样本
- 样本 i,j 出现在相同叶子节点的次数增加1次
- 即该叶子节点包含的样本为 sample[1,2,...,k] 则 S[i,j]累1.
- 遍历结束,则 S 为样本间相似度矩阵
使用随机森林计算特征重要度
- 随森林是常用的衡量特征重要性的方法。
也就是如果某一个特征作为分类依据被使用比较多,那么就说明这个特征根 y 的相关性比较强。所以通过决策树,??- 计算正例经过的节点,使用进过节点的数目、经过节点的 gini 系数和等指标。或者,随机替换一列数据,重新建立决策树,计算新模型的正确变化率,从而考虑这一列特征的重要性。
- selection frequency
- gini importance
- permutation importance
网友评论