数据

作者: longgb246 | 来源:发表于2016-10-19 13:50 被阅读0次

数据，数据
数据数据
数据数据
Python Pandas Dataframe 的基本操作
《Python数据分析与挖掘实战》第四章数据预处理
基础定义
pandas手册
2019-07-25
日志定位
reshape2数据汇总

一、数据知识

如果若干属性是强相关的，则说明这些属性可能提供了高度冗余的信息，我们可以决定只保留一个。

二、数据预处理

1、维规约：

通过创建新属性，将一些旧属性合并在一起来降低数据的维度。通过选择旧属性的子集得到的新属性，这种维规约称为特征子集选择。

2、维灾难：

数据维度（属性）过高。数据稀疏，对于分类，没有足够多的数据用于建模；对于聚类，点之间的密度和距离定义失去了意义，分类准确率降低。

3、数据离散化：

将连续型变量离散化为离散型变量。

（1）非监督离散化：

2_01.png

<em>这里注意K均值离散化是什么样的技术，去寻找资料。</em>

（2）监督离散化：

计算熵，希望获得最小的熵：
![](http://www.forkosh.com/mathtex.cgi? e_{i}=-\sum_{k}^{j=1}p_{ij}*log_{2}(p_{ij}))
![](http://www.forkosh.com/mathtex.cgi? e=\sum_{i=1}^{n}w_{i}e_{i})
其中e为该区间的熵。
若纯：对于pij = 0或者1，ei = 0
若不纯：则熵最大。

4、变量变换

标准化：创建一个变量，使得它有均值为0，标准差为1
![](http://www.forkosh.com/mathtex.cgi? x'=\frac{x-\bar{x}}{s_{x}})
均值和标准差受离群点的影响很大，通常需要使用其他变化，用中位数（median）代替均值，使用绝对标准差（absolute standard deviation）取代标准差。绝对标准差：
![](http://www.forkosh.com/mathtex.cgi? \sigma_{A}=\sum_{i=1}^{m}\left|x_{i}-\mu\right|)

三、属性的相似度和相异度

1、相异度，距离

闵可夫斯基距离（Minkowski distance）：
![](http://www.forkosh.com/mathtex.cgi? d(x,y)=\left(\sum_{k=1}^{{n}\left|x_{k}-y_{k}\right|}{r}\right)^{\frac{1}{r}})
注：r=1时，曼哈顿距离。r=2时，欧几里得距离。r=无穷时，上确界距离。
距离的性质：
（1）非负性；（2）对称性；（3）三角不等式。

2、相似度

（1）简单匹配系数（Simple Matching Coefficient，SMC）

![](http://www.forkosh.com/mathtex.cgi? SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}})
其中f11表示：x取1并且y取1的属性个数。其他类似。SMC可以是一个仅包含<strong>是非题</strong>的检测中用来发现回答问题相似的学生。

（2）Jaccard系数

![](http://www.forkosh.com/mathtex.cgi? J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}})
以上两个系数，均用于二元变量，0-1的计算。

（3）余弦相似度

![](http://www.forkosh.com/mathtex.cgi? cos(x,y)=\frac{x\cdot y}{\left | x \right |\left | y \right |}=\frac{x}{\left|x\right|}\cdot \frac{y}{\left|y\right|}=x'\cdot y')
余弦相似度从等式右边，可以看出不需要考虑量值。其中，有向量点积计算公式：
![](http://www.forkosh.com/mathtex.cgi? x\cdot y=\sum_{n}^{k=1}x_{k}y_{k},\left | x \right |=\sqrt{\sum_{n}^{k=1}x_{k}{2}}=\sqrt{x\cdot x})

（4）广义Jaccard系数（Tanimoto系数，EJ）

![](http://www.forkosh.com/mathtex.cgi? EJ(x,y)=\frac{x\cdot y}{\left | x \right |^{2}+\left | y \right |^{2}-x\cdot y})

（5）相关性

Pearson相关系数，[-1,1]之间：
![](http://www.forkosh.com/mathtex.cgi? corr(x,y)=\frac{S_{xy}}{S_{x}S_{y}}=\frac{\frac{1}{n-1}\sum_{k=1}^{{n}(x_{k}-\bar{x})(y_{k}-\bar{y})}{\sqrt{\frac{1}{n-1}\sum_{k=1}}{n}(x_{k}-\bar{x})^{2}}\cdot \sqrt{\frac{1}{n-1}\sum_{k=1}^{{n}(y_{k}-\bar{y})}{2}}})
Bregman散度：
失真函数，损失函数。y为原来的点，x为某个失真值。给定一个严格凸函数，Bregman散度D（x，y）：
![](http://www.forkosh.com/mathtex.cgi? D(x,y)=\phi (x)+\phi (y)-\left \langle \triangledown \phi(y),(x-y) \right \rangle)
后面的为梯度和内积。

2_02.png
y=1时，在x=2和x=3上的Bregman散度。

（6）马氏距离（Mahalanobis距离）

![](http://www.forkosh.com/mathtex.cgi? mahalanobis(x,y)=(x-y)\Sigma ^{-1}(x-y){T})
x，y为两个点，中间的为数据协方差的逆。

网友评论

本文标题：数据

本文链接：https://www.haomeiwen.com/subject/hwazyttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据

一、数据知识

二、数据预处理

1、维规约：

2、维灾难：

3、数据离散化：

（1）非监督离散化：

（2）监督离散化：

4、变量变换

三、属性的相似度和相异度

1、相异度，距离

2、相似度

（1）简单匹配系数（Simple Matching Coefficient，SMC）

（2）Jaccard系数

（3）余弦相似度

（4）广义Jaccard系数（Tanimoto系数，EJ）

（5）相关性

（6）马氏距离（Mahalanobis距离）

相关文章

数据，数据

数据数据

数据数据

Python Pandas Dataframe 的基本操作

《Python数据分析与挖掘实战》第四章数据预处理

基础定义

pandas手册

2019-07-25

日志定位

reshape2数据汇总

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读