异常检测算法的推导和评价方法:
1.对于训练集,我们看成无标签的,但可能有一些异常样本也被分到训练集里,这不影响。“无标签训练集”,然后用p(x)来拟合
2.定义交叉验证集和测试集,假设交叉验证集和测试集中有一些样本是异常的。
3. 对交叉验证集和测试集用异常检测算法p(x)来作出一个预测。当p(x)小于ε时,预测y=1,所以在概率值很小的时候预测样本是异常的;如果p(x)的值大于或等于ε时,算法将预测y=0,也就是说如果概率p(x)比较大的时候,预测该样本为正常样本。
案例但是预测结果会比较偏斜,因为y=0也就是正常的样本肯定是比出现y=1的异常样本的情况更多。这需要一个好的评价度量方法。评价度量方法也存在于监督学习中。比较偏斜的数据集总是预测y=0,它的分类准确度自然会很高,取而代之的应该算出真阳性、假阳性、 假阴性和真阴性的比率来作为评价度量值,或者也可以算出查准率和召回率或者算出F1-积分。
评价度量异常检测算法中参数ε的选择?
ε是用来决定什么时候把一个样本当作是异常样本的一个阈值。多个不同的ε的取值,然后选出一个使得F1-积分的值最大的那个ε,也就是在交叉验证集中表现最好的。
网友评论