孤立森林（Isolation Forest）算法简介

作者: 坐看云起时zym | 来源:发表于2019-06-14 14:01 被阅读0次

孤立森林（Isolation Forest）算法简介
古老的spc也可以用机器学习（二）-孤立森林算法
孤立森林（Isolation Forest）
孤立森林
[转载]iForest （Isolation Forest）孤立
iForest （Isolation Forest）孤立森林异
异常检测算法 -- 孤立森林（Isolation Forest）
异常值检测算法--孤立森林（Isolation Forest）
异常点检测-孤立森林
孤立森林（Isolation Forest）从原理到实践

简介：

孤立森林算法是一种适用于连续数据的无监督异常检测方法，由南京大学周志华教授等人于2008年首次提出，之后又于2012年提出了改进版本。与其他异常检测算法通过距离，密度等量化指标来刻画样本间的疏离程度不同，孤立森林算法通过对样本点的孤立来检测异常值。具体来说，该算法利用一种名为孤立树 $iTree$ 的二叉搜索树结构来孤立样本。由于异常值的数量较少且与大部分样本的疏离性，因此，异常值会被更早的孤立出来，也即异常值会距离 $iTree$ 的根节点更近，而正常值则会距离根节点有更远的距离。此外，相较于LOF，K-means等传统算法，孤立森林算法对高纬数据有较好的鲁棒性。

定义：

我们先给出孤立树(Isolation Tree)和样本点 $x$ 在孤立树中的路径长度 $h(x)$ 的定义

孤立树：若 $T$ 为孤立树的一个节点， $T$ 存在两种情况：没有子节点的外部节点，有两个子节点 $\left ( T_{l},T_{r} \right )$ 和一个test的内部节点。在 $T$ 的test由一个属性 $q$ 和一个分割点 $p$ 组成， $q < p$ 的点属于 $T_{l}$ ,反之属于 $T_{r}$ 。

样本点 $x$ 在孤立树中的路径长度 $h(x)$ :样本点 $x$ 从 $iTree$ 的根节点到叶子节点经过的边的数量

基本思想：

从下图我们可以直观的看到，相对更异常的 $x_{o}$ 只需要4次切割就从整体中被分离出来，而更加正常的 $x_{i}$ 点经过了11次分割才从整体中分离出来。这也体现了孤立森林算法的基本思想。(ps:图片来自原论文)

Isolation_Forest_show.jpeg

算法介绍：

下面，我们来详细介绍孤立森林算法。该算法大致可以分为两个阶段，第一个阶段我们需要训练出 $t$ 颗孤立树，组成孤立森林。随后我们将每个样本点带入森林中的每棵孤立树，计算平均高度，之后再计算每个样本点的异常值分数。

Step1: $X = \left \{ x_{1},...,x_{n} \right \}$ 为给定数据集, $\forall x_{i} \in X, x_{i} = \left ( x_{i1},...,x_{id} \right )$ ,从 $X$ 中随机抽取 $\psi$ 个样本点构成 $X$ 的子集 $X^{'}$ 放入根节点。
Step2:从 $d$ 个维度中随机指定一个维度 $q$ ，在当前数据中随机产生一个切割点 $p$ ， $min\left ( x_{ij}, j = q, x_{ij} \in X^{'} \right ) < p < max\left ( x_{ij}, j = q, x_{ij} \in X^{'} \right )$ 。
Step3:此切割点 $p$ 生成了一个超平面，将当前数据空间划分为两个子空间：指定维度小于p的样本点放入左子节点，大于或等于p的放入右子节点。
Step4:递归Step2和Step3，直至所有的叶子节点都只有一个样本点或者孤立树 $(iTree)$ 已经达到指定的高度。
Step5:循环Step1至Step4，直至生成 $t$ 个孤立树 $(iTree)$

第二阶段：
Step1: 对于每一个数据点 $x_{i}$ ,令其遍历每一颗孤立树 $(iTree)$ ,计算点 $x_{i}$ 在森林中的平均高度 $h\left ( x_{i} \right )$ ,对所有点的平均高度做归一化处理。异常值分数的计算公式如下所示：
$s\left ( x,\psi \right ) = 2^{\frac{E\left ( h\left ( x \right ) \right )}{c\left ( \psi \right )}}$
其中， $c\left ( \psi \right ) = \left\{\begin{matrix} 2H\left ( \psi - 1 \right ) - 2 \left ( \psi - 1 \right )/\psi, \psi > 2\\ 1, \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \psi = 2\\ 0, \quad \quad \quad \quad \quad \quad \quad \quad otherwise \end{matrix}\right.$

示例：

from sklearn.ensemble import IsolationForest  
from scipy import stats  
rng = np.random.RandomState(42)
X_train = data[:10000,:]
X_test = data
clf = IsolationForest(max_samples=256,random_state=rng)
clf.fit(X_train)
y_pred_test = clf.predict(X_test)

参考：https://dl.acm.org/citation.cfm?doid=2133360.2133363

孤立森林（Isolation Forest）算法简介
简介：孤立森林算法是一种适用于连续数据的无监督异常检测方法，由南京大学周志华教授等人于2008年首次提出，之后又...
古老的spc也可以用机器学习（二）-孤立森林算法
算法原理 iForest （Isolation Forest）孤立森林是一个基于Ensemble的快速异常检测方...
孤立森林（Isolation Forest）
首先随机选择到的维度是 “年龄”，然后随机选择一个切割点 18，小于 18 岁的只有莫小贝一个人，所以她最先被 “...
孤立森林
孤立森林（Isolation Forest）算法是西瓜书作者周志华老师的团队研究开发的算法，一般用于结构化数据的异...
[转载]iForest （Isolation Forest）孤立
iForest （Isolation Forest）孤立森林是一个基于Ensemble的快速异常检测方法，具有线...
iForest （Isolation Forest）孤立森林异
iForest （Isolation Forest）孤立森林是一个基于Ensemble的快速异常检测方法，具有线...
异常检测算法 -- 孤立森林（Isolation Forest）
之后会持续更新算法剖析系列，力图用最生动的例子演示每一个算法的原理，不稀里糊涂做一个调包侠。欢迎持续关注，指正不足...
异常值检测算法--孤立森林（Isolation Forest）
算法该方法是一维或多维特征空间中大数据集的非参数方法，其中的一个重要概念是孤立数。孤立数是孤立数据点所需的拆分数...
异常点检测-孤立森林
异常点检测-孤立森林Isolation Forest 1.基于划分的思想：假设我们用一个随机超平面来切割（spli...
孤立森林（Isolation Forest）从原理到实践
异常检测离群点是在给定数据集中，与其他数据点显著不同的数据点。异常检测是找出数据中离群点（和大多数数据点显著不同...