Outlier 之我见
从14年初博士开题到现在2016年初我一直在做流场数据的outlier的检测,这个问题的通俗描述也就是在一锅大米中挑老鼠屎. 处理这个问题可以很简单,用人工的方法将一颗颗老鼠屎挑出来也就行了;如果采用计算机编程来解决这个问题,这个问题的解决可以更加自动化的进行,也对技术层面提出了不少的挑战!
Outlier的模型
与其说是建立outlier的模型,实质上是对信号进行一个全面的建模,有了模型才能提出方法,评价方法.通常的模型如下:
(1):
其中为无噪声信号,为均值为0,方差为的高斯噪声信号,而为稀疏分布的outlier信号。这个模型还可以表示为一个分类的形式:
(2):
其中表示第点的噪声类型为高斯噪声()或者是outlier().其他变量的定义同上。
Outlier的自动处理办法
处理outlier的思想其实相对容易,根据outlier的模型中的某些特性建立一种剔除机制,主要包括下面几种方法:
- 权重法
权重法的思想:先初步搞一个参考值,然后估摸着给出权重。就是对每一点确定一个权重 ,是当前位置的真实值的一个估计,有很多方法去估计这个值。是当前位置的观测值,是一个映射函数,一般是采用Turkey weight, bi-square, 柯西函数等等。然后根据给定的阈值,就可以去确定outlier的位置。影响权重法的重要因素是当前位置的真实值的估计方法,通常采用对outlier不敏感的中值滤波,(带权)最小二乘拟合或者计算速度较快的DCT-PLS方法。注意一般权重法是需要迭代多步进行的。具体的思路可以参见我第二篇文章的introduction部分。
- 混合模型法
混合模型的思想:用概率的角度去建模,然后贝叶斯“执果索因”。借助贝叶斯的“执果索因”的策略,根据当前的所有观测值去估计某些值是否处于outlier的状态。我们根据outlier的模型,可以给出似然概率;另一方面,我们对真确数据是有一定的先验知识的.据此我们就能给出后验概率的表达模式,最大化该后验概率即可得到相应的outlier分布(从)和其他的恢复数据。
- 稀疏表达法
稀疏表达的思想:这个就更加简单了,利用outlier的空间分布是稀疏的这么一个性质,真实信号更多的是在转换域稀疏。即;其中I是单位矩阵,表示outlier在空间分布是稀疏的; ;表示真实信号在转换域是稀疏的。那么利用这个性质可以建模如下:
求解这个问题就可以从的值中得到outlier的分布,从中恢复正常信号。
- 总结
从目前的文献和个人尝试来看,利用混合模型能够取得更好的效果。权重法依赖于参考值的估计,不同的方法和不同的outlier的比率都对估计结果有很大的影响;稀疏表达的方法利用的信息太小,还要求outlier的数量是少量的(稀疏性),同时在转换域上能够很好的稀疏表达正常的信号(字典学习/字典设计),造成了该方法的不足。
多说几句关于混合模型
确实混合模型在解决该类问题中是上述几种方法中最好的,混合模型的应用绝对不限于此。2010年Mitra利用混合模型去改造RVM方法,在outlier存在的情况下得到更加好的回归和分类效果; Jiayi Ma 在2014年使用混合高斯模型结合扩展希尔伯特空间的正则化在匹配outlier的问题中得到了很好的效果(outlier比率超过90%还行);我个人在2015年使用混合模型结合DCT-PLS在PIV测量数据的outlier的处理中也得到了领域中最好的结果。
参考文献
- Mitra, Kaushik, Ashok Veeraraghavan, and Rama Chellappa. "Robust rvm regression using sparse outlier model." Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010.
- Ma J, Zhao J, Tian J, et al. Robust point matching via vector field consensus[J]. Image Processing, IEEE Transactions on, 2014, 23(4): 1706-1721.
- Yong Lee, Hua Yang, Zhou Ping Yin.A robust vector field correction method via a mixture statistical model of PIV signal.2015. Experiments in Fluids.
网友评论