美文网首页
线性相关

线性相关

作者: 战忽局女程序猿 | 来源:发表于2021-05-18 00:13 被阅读0次

## 假设

### 假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。

### 假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。

## 线性回归

通过其他变量预测单独的属性值,假设不同维度的变量有一定的相关性(自变量和因变量)

应用:可以用于数据降噪或异常检测;

### 基于自变量与因变量的线性回归

#### 最小二乘法

标准差

#### 梯度下降

Loss function 损失函数:the error for single training example

cost function 代价函数:the average of the loss functions of the entire training set

线性回归的损失函数:均方误差

### 基于异常检测的线性回归

即以相似的方式对待所有变量,通过最小化数据对该平面的投影误差确定最佳回归平面

## 主成分分析

用一些潜在变量代表整个数据

原理:

如果前 k的特征向量选定之后(根据最大的k个特征值),由这些特征向量定义的 k维超平面是在所有维度为 k的超平面中,所有数据点到它的均方距离尽可能小的平面。

如果将数据转换为与正交特征向量对应的轴系,则转换后的数据沿每个特征向量维的方差等于相应的特征值。在这种新表示中,转换后的数据的协方差为0。

由于沿特征值小的特征向量的转换数据的方差很低,因此沿这些方向的变换数据与平均值的显着偏差可能表示离群值。

值得注意的是,对异常得分的大部分贡献是由 λj

值较小的主成分的偏差提供的,这一点上文中有提及过。主成分分析比因变量回归能更稳定地处理少数异常值的存在。这是因为主成分分析是根据最优超平面来计算误差的,而不是一个特定的变量。当数据中加入更多的离群点时,最优超平面的变化通常不会大到影响离群点的选择。因此,这种方法更有可能选择正确的异常值,因为回归模型一开始就更准确。

### 归一化

主成分分析最好归一化,数据本身的度量方差或值域会导致主成分变量选择有偏。

# Anomaly Detection-A Tutorial

## definition

离群点值得是,与其他观测值偏离太多,使用另外一种机制产生的观测点

## 理论知识

### 统计方法

正态分布

均值-方差

Mahalanobis distance 马氏距离

异常点在分布的尾部

缺点:

1、数据不符合正态分布,而是一个非常复杂的分布

2、均值和方差都是d。不明白

3、均值和方法都极易受到异常点影响,如果我们使用这两者寻找异常点会导致错误的结果。

### 基于距离和密度方法

#### 基于距离(K近邻)

原理:异常点都距离它的邻居极远

优缺点:

1、不用假设分布

2、适用于大数据(需要大量数据)

3、只适用于全局异常点

4、Can lead to non-intuitive results in Top-k situations(不明白)

#### 基于密度(LOF)

优缺点:

1、可识别全局或局部异常点

2、不能剪枝,复杂度 N方

3、Require a method combining the strengths of distance and density based approaches? A distance based approach which can capture density?

CDOF 看不懂

距离法中的剪枝不适用于密度法

### addressing scalability

### 复杂数据中的异常情况

### 评估方法

## 应用

### 网络入侵侦查

### 反欺诈

目标:从交易数据中识别欺诈行为或人

数据:系统中不同人间的交易事物、个人信息、隐藏的图结构

挑战:追踪人物行为或建模、竞争对手创造的异常数据、数据高维

方法:

灵活的监控

    根据历史数据构建用户画像

    比较当前行为和历史行为画像

聚类:

    对历史数据或客户聚类

    识别小欺诈团体或找出异常客户

优点:

    实时

    解释性强

缺点:

    需建立或者囊括大量用户画像

    不动态

    历史数据不一定可得

    异常标签少

### Epidemiological 研究

### 天气数据分析

## 异常检测在数据挖掘中的四类

### 分类

### 聚类

### 模式挖掘

### 异常检测

相关文章

  • 2019-04-22

    向量组的线性相关性 定理1: 设,向量组可以由向量组,则线性相关。 线性相关性的等价刻画1 定理1:线性相关的充分...

  • Pearson Correlation Coefficient

    Pearson 相关系数, 计算X和Y之间的线性相关程度,范围[-1, +1]。+1表示正线性相关,0表示线性无关...

  • 线性相关

    ## 假设 ### 假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。 ### 假设...

  • 线性代数笔记09

    第九节 线性相关性 概念:线性无关,线性相关,张成生成(span),向量空间的基、维数 我们说向量组是线性无关的,...

  • R可视化——线性相关性分析及可视化

        今天,我们继续来讲相关性分析方面的内容——线性相关性分析!线性相关性方面的概念性内容这里不做过多赘述,大家...

  • spss相关分析与回归分析

    1.相关分析,根据a不能计算出确定的b,不存在函数关系,分为线性相关和非线性相关。 1.1简单相关分析 两个变量为...

  • 皮尔逊相关系数

    1. 定义 皮尔逊相关系数用于度量两个变量(X和Y)之间的线性相关程度,其值介于-1与1之间。这种线性相关直观表述...

  • MIT 线性代数 9.线性相关性,基,维数

    线性相关 假设有一堆向量如果存在不全为零的系数使得那么就说这里面所有的向量都是线性无关的,否则就是线性相关 这里可...

  • 线性相关

    △行列式的概念 全排列 对换 n阶行列式 转置行列式 △△△△行列式的性质 △△△应用行列式的性质 余子式和代数余...

  • 个人能力的坐标轴

    关于个人能力积累有一点小小看法,个人考虑还有很多不足之处,请多多指点。 横轴是能力与时间的线性相关度。线性相关度越...

网友评论

      本文标题:线性相关

      本文链接:https://www.haomeiwen.com/subject/fszsjltx.html