线性相关

作者: 战忽局女程序猿 | 来源:发表于2021-05-18 00:13 被阅读0次

2019-04-22
Pearson Correlation Coefficient
线性相关
线性代数笔记09
R可视化——线性相关性分析及可视化
spss相关分析与回归分析
皮尔逊相关系数
MIT 线性代数 9.线性相关性，基，维数
线性相关
个人能力的坐标轴

## 假设

### 假设一：近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。

### 假设二：子空间假设。子空间假设认为数据是镶嵌在低维子空间中的，线性方法的目的是找到合适的低维子空间使得异常点（o）在其中区别于正常点（n）。

## 线性回归

通过其他变量预测单独的属性值，假设不同维度的变量有一定的相关性（自变量和因变量）

应用：可以用于数据降噪或异常检测；

### 基于自变量与因变量的线性回归

#### 最小二乘法

标准差

#### 梯度下降

Loss function 损失函数：the error for single training example

cost function 代价函数:the average of the loss functions of the entire training set

线性回归的损失函数：均方误差

### 基于异常检测的线性回归

即以相似的方式对待所有变量，通过最小化数据对该平面的投影误差确定最佳回归平面

## 主成分分析

用一些潜在变量代表整个数据

原理：

如果前 k的特征向量选定之后（根据最大的k个特征值），由这些特征向量定义的 k维超平面是在所有维度为 k的超平面中，所有数据点到它的均方距离尽可能小的平面。

如果将数据转换为与正交特征向量对应的轴系，则转换后的数据沿每个特征向量维的方差等于相应的特征值。在这种新表示中，转换后的数据的协方差为0。

由于沿特征值小的特征向量的转换数据的方差很低，因此沿这些方向的变换数据与平均值的显着偏差可能表示离群值。

值得注意的是，对异常得分的大部分贡献是由 λj

值较小的主成分的偏差提供的，这一点上文中有提及过。主成分分析比因变量回归能更稳定地处理少数异常值的存在。这是因为主成分分析是根据最优超平面来计算误差的，而不是一个特定的变量。当数据中加入更多的离群点时，最优超平面的变化通常不会大到影响离群点的选择。因此，这种方法更有可能选择正确的异常值，因为回归模型一开始就更准确。

### 归一化

主成分分析最好归一化，数据本身的度量方差或值域会导致主成分变量选择有偏。

# Anomaly Detection-A Tutorial

## definition

离群点值得是，与其他观测值偏离太多，使用另外一种机制产生的观测点

## 理论知识

### 统计方法

正态分布

均值-方差

Mahalanobis distance 马氏距离

异常点在分布的尾部

缺点：

1、数据不符合正态分布，而是一个非常复杂的分布

2、均值和方差都是d。不明白

3、均值和方法都极易受到异常点影响，如果我们使用这两者寻找异常点会导致错误的结果。

### 基于距离和密度方法

#### 基于距离（K近邻）

原理：异常点都距离它的邻居极远

优缺点：

1、不用假设分布

2、适用于大数据（需要大量数据）

3、只适用于全局异常点

4、Can lead to non-intuitive results in Top-k situations（不明白）

#### 基于密度（LOF）

优缺点：

1、可识别全局或局部异常点

2、不能剪枝，复杂度 N方

3、Require a method combining the strengths of distance and density based approaches? A distance based approach which can capture density?

CDOF 看不懂

距离法中的剪枝不适用于密度法

### addressing scalability

### 复杂数据中的异常情况

### 评估方法

## 应用

### 网络入侵侦查

### 反欺诈

目标：从交易数据中识别欺诈行为或人

数据：系统中不同人间的交易事物、个人信息、隐藏的图结构

挑战：追踪人物行为或建模、竞争对手创造的异常数据、数据高维

方法：

灵活的监控

根据历史数据构建用户画像

比较当前行为和历史行为画像

聚类：

对历史数据或客户聚类

识别小欺诈团体或找出异常客户

优点：

实时

解释性强

缺点：

需建立或者囊括大量用户画像

不动态

历史数据不一定可得

异常标签少

### Epidemiological 研究

### 天气数据分析

## 异常检测在数据挖掘中的四类

### 分类

### 聚类

### 模式挖掘

### 异常检测

网友评论

本文标题：线性相关

本文链接：https://www.haomeiwen.com/subject/fszsjltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

线性相关

相关文章

2019-04-22

Pearson Correlation Coefficient

线性相关

线性代数笔记09

R可视化——线性相关性分析及可视化

spss相关分析与回归分析

皮尔逊相关系数

MIT 线性代数 9.线性相关性，基，维数

线性相关

个人能力的坐标轴

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读