如果数据的分布不同于高斯分布,则需要对数据进行一些不同的转换来确保这些数据看起来更像高斯分布。虽然通常来说不这么做算法也会运行地很好,但如果使用一些转换方法,这会使你的数据更像高斯分布,准换后的新特征变量会使你的算法会工作得更好。
非高斯分布的特征变量例如: x1的对数log(x1) 来替换掉x1
如何得到异常检测算法的特征变量?
误差分析步骤。们先完整地训练出一个学习算法,然后在一组交叉验证集上运行算法,然后找出那些预测出错的样本,再看看能否找到一些其他的特征变量来帮助学习算法,让它在那些交叉验证时判断出错的样本中表现更好。
新特征变量例如:计算机在执行一个任务时进入了一个死循环, 因此CPU负载升高,但网络流量没有升高,可以建立一个新特征等于 CPU负载的平方除以网络流量,能帮助检测出某种类型的异常情况。通过不同特征变量的组合捕捉到对应的不寻常现象。
举例
网友评论