美文网首页
线性相关

线性相关

作者: 战忽局女程序猿 | 来源:发表于2021-05-18 00:13 被阅读0次

    ## 假设

    ### 假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。

    ### 假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。

    ## 线性回归

    通过其他变量预测单独的属性值,假设不同维度的变量有一定的相关性(自变量和因变量)

    应用:可以用于数据降噪或异常检测;

    ### 基于自变量与因变量的线性回归

    #### 最小二乘法

    标准差

    #### 梯度下降

    Loss function 损失函数:the error for single training example

    cost function 代价函数:the average of the loss functions of the entire training set

    线性回归的损失函数:均方误差

    ### 基于异常检测的线性回归

    即以相似的方式对待所有变量,通过最小化数据对该平面的投影误差确定最佳回归平面

    ## 主成分分析

    用一些潜在变量代表整个数据

    原理:

    如果前 k的特征向量选定之后(根据最大的k个特征值),由这些特征向量定义的 k维超平面是在所有维度为 k的超平面中,所有数据点到它的均方距离尽可能小的平面。

    如果将数据转换为与正交特征向量对应的轴系,则转换后的数据沿每个特征向量维的方差等于相应的特征值。在这种新表示中,转换后的数据的协方差为0。

    由于沿特征值小的特征向量的转换数据的方差很低,因此沿这些方向的变换数据与平均值的显着偏差可能表示离群值。

    值得注意的是,对异常得分的大部分贡献是由 λj

    值较小的主成分的偏差提供的,这一点上文中有提及过。主成分分析比因变量回归能更稳定地处理少数异常值的存在。这是因为主成分分析是根据最优超平面来计算误差的,而不是一个特定的变量。当数据中加入更多的离群点时,最优超平面的变化通常不会大到影响离群点的选择。因此,这种方法更有可能选择正确的异常值,因为回归模型一开始就更准确。

    ### 归一化

    主成分分析最好归一化,数据本身的度量方差或值域会导致主成分变量选择有偏。

    # Anomaly Detection-A Tutorial

    ## definition

    离群点值得是,与其他观测值偏离太多,使用另外一种机制产生的观测点

    ## 理论知识

    ### 统计方法

    正态分布

    均值-方差

    Mahalanobis distance 马氏距离

    异常点在分布的尾部

    缺点:

    1、数据不符合正态分布,而是一个非常复杂的分布

    2、均值和方差都是d。不明白

    3、均值和方法都极易受到异常点影响,如果我们使用这两者寻找异常点会导致错误的结果。

    ### 基于距离和密度方法

    #### 基于距离(K近邻)

    原理:异常点都距离它的邻居极远

    优缺点:

    1、不用假设分布

    2、适用于大数据(需要大量数据)

    3、只适用于全局异常点

    4、Can lead to non-intuitive results in Top-k situations(不明白)

    #### 基于密度(LOF)

    优缺点:

    1、可识别全局或局部异常点

    2、不能剪枝,复杂度 N方

    3、Require a method combining the strengths of distance and density based approaches? A distance based approach which can capture density?

    CDOF 看不懂

    距离法中的剪枝不适用于密度法

    ### addressing scalability

    ### 复杂数据中的异常情况

    ### 评估方法

    ## 应用

    ### 网络入侵侦查

    ### 反欺诈

    目标:从交易数据中识别欺诈行为或人

    数据:系统中不同人间的交易事物、个人信息、隐藏的图结构

    挑战:追踪人物行为或建模、竞争对手创造的异常数据、数据高维

    方法:

    灵活的监控

        根据历史数据构建用户画像

        比较当前行为和历史行为画像

    聚类:

        对历史数据或客户聚类

        识别小欺诈团体或找出异常客户

    优点:

        实时

        解释性强

    缺点:

        需建立或者囊括大量用户画像

        不动态

        历史数据不一定可得

        异常标签少

    ### Epidemiological 研究

    ### 天气数据分析

    ## 异常检测在数据挖掘中的四类

    ### 分类

    ### 聚类

    ### 模式挖掘

    ### 异常检测

    相关文章

      网友评论

          本文标题:线性相关

          本文链接:https://www.haomeiwen.com/subject/fszsjltx.html