美文网首页
PIV_6:Outlier 之我见

PIV_6:Outlier 之我见

作者: 闪电侠悟空 | 来源:发表于2019-12-15 14:27 被阅读0次

    Outlier 之我见

    从14年初博士开题到现在2016年初我一直在做流场数据的outlier的检测,这个问题的通俗描述也就是在一锅大米中挑老鼠屎. 处理这个问题可以很简单,用人工的方法将一颗颗老鼠屎挑出来也就行了;如果采用计算机编程来解决这个问题,这个问题的解决可以更加自动化的进行,也对技术层面提出了不少的挑战!

    Outlier的模型

    与其说是建立outlier的模型,实质上是对信号进行一个全面的建模,有了模型才能提出方法,评价方法.通常的模型如下:

    (1): y=x+\eta+s

    其中x为无噪声信号,\eta为均值为0,方差为\sigma^2的高斯噪声信号,而s为稀疏分布的outlier信号。这个模型还可以表示为一个分类的形式:

    (2): y_i = z_i(x_i+\eta_i)+(1-z_i)s_i

    其中z_i\in\{0,1\}表示第i点的噪声类型为高斯噪声(z_i=1)或者是outlier(z_i=0).其他变量的定义同上。

    Outlier的自动处理办法

    处理outlier的思想其实相对容易,根据outlier的模型中的某些特性建立一种剔除机制,主要包括下面几种方法:

    • 权重法

    权重法的思想:先初步搞一个参考值,然后估摸着给出权重。就是对每一点确定一个权重 w_i = f(\hat{x},y_i)\hat{x}是当前位置的真实值的一个估计,有很多方法去估计这个值。y_i是当前位置的观测值,f是一个映射函数,一般是采用Turkey weight, bi-square, 柯西函数等等。然后根据给定的阈值,就可以去确定outlier的位置。影响权重法的重要因素是当前位置的真实值\hat{x}的估计方法,通常采用对outlier不敏感的中值滤波,(带权)最小二乘拟合或者计算速度较快的DCT-PLS方法。注意一般权重法是需要迭代多步进行的。具体的思路可以参见我第二篇文章的introduction部分。

    • 混合模型法

    混合模型的思想:用概率的角度去建模,然后贝叶斯“执果索因”。借助贝叶斯的“执果索因”的策略,根据当前的所有观测值去估计某些值是否处于outlier的状态。我们根据outlier的模型,可以给出似然概率P(y:x,z);另一方面,我们对真确数据是有一定的先验知识的P(x,z)=P(x).据此我们就能给出后验概率的表达模式P(x,z:y)=\frac{P(y:x,z)P(x)}{P(y)},最大化该后验概率即可得到相应的outlier分布(从P(z_i))和其他的恢复数据。

    • 稀疏表达法

    稀疏表达的思想:这个就更加简单了,利用outlier的空间分布是稀疏的这么一个性质,真实信号更多的是在转换域稀疏。即s= I \alpha_s;其中I是单位矩阵,表示outlier在空间分布是稀疏的; x = \psi \beta;表示真实信号在转换域是稀疏的。那么利用这个性质可以建模如下:

    min \quad \|\alpha\|_1 +\|\beta\|_1\\ s.t. \quad y=I\alpha+\psi\beta

    求解这个问题就可以从\alpha的值中得到outlier的分布,从\psi\beta中恢复正常信号。

    • 总结

    从目前的文献和个人尝试来看,利用混合模型能够取得更好的效果。权重法依赖于参考值的估计,不同的方法和不同的outlier的比率都对估计结果有很大的影响;稀疏表达的方法利用的信息太小,还要求outlier的数量是少量的(稀疏性),同时在转换域上能够很好的稀疏表达正常的信号(字典学习/字典设计),造成了该方法的不足。

    多说几句关于混合模型

    确实混合模型在解决该类问题中是上述几种方法中最好的,混合模型的应用绝对不限于此。2010年Mitra利用混合模型去改造RVM方法,在outlier存在的情况下得到更加好的回归和分类效果; Jiayi Ma 在2014年使用混合高斯模型结合扩展希尔伯特空间的正则化在匹配outlier的问题中得到了很好的效果(outlier比率超过90%还行);我个人在2015年使用混合模型结合DCT-PLS在PIV测量数据的outlier的处理中也得到了领域中最好的结果。

    参考文献

    • Mitra, Kaushik, Ashok Veeraraghavan, and Rama Chellappa. "Robust rvm regression using sparse outlier model." Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010.
    • Ma J, Zhao J, Tian J, et al. Robust point matching via vector field consensus[J]. Image Processing, IEEE Transactions on, 2014, 23(4): 1706-1721.
    • Yong Lee, Hua Yang, Zhou Ping Yin.A robust vector field correction method via a mixture statistical model of PIV signal.2015. Experiments in Fluids.

    相关文章

      网友评论

          本文标题:PIV_6:Outlier 之我见

          本文链接:https://www.haomeiwen.com/subject/rngknctx.html