数据

作者: longgb246 | 来源:发表于2016-10-19 13:50 被阅读0次

一、数据知识

如果若干属性是强相关的,则说明这些属性可能提供了高度冗余的信息,我们可以决定只保留一个。

二、数据预处理

1、维规约:

通过创建新属性,将一些旧属性合并在一起来降低数据的维度。通过选择旧属性的子集得到的新属性,这种维规约称为特征子集选择。

2、维灾难:

数据维度(属性)过高。数据稀疏,对于分类,没有足够多的数据用于建模;对于聚类,点之间的密度和距离定义失去了意义,分类准确率降低。

3、数据离散化:

将连续型变量离散化为离散型变量。

(1)非监督离散化:
2_01.png

<em>这里注意K均值离散化是什么样的技术,去寻找资料。</em>

(2)监督离散化:

计算熵,希望获得最小的熵:
![](http://www.forkosh.com/mathtex.cgi? e_{i}=-\sum_{k}^{j=1}p_{ij}*log_{2}(p_{ij}))
![](http://www.forkosh.com/mathtex.cgi? e=\sum_{i=1}^{n}w_{i}e_{i})
其中e为该区间的熵。
若纯:对于pij = 0或者1,ei = 0
若不纯:则熵最大。

4、变量变换

标准化:创建一个变量,使得它有均值为0,标准差为1
![](http://www.forkosh.com/mathtex.cgi? x'=\frac{x-\bar{x}}{s_{x}})
均值和标准差受离群点的影响很大,通常需要使用其他变化,用中位数(median)代替均值,使用绝对标准差(absolute standard deviation)取代标准差。绝对标准差:
![](http://www.forkosh.com/mathtex.cgi? \sigma_{A}=\sum_{i=1}^{m}\left|x_{i}-\mu\right|)

三、属性的相似度和相异度

1、相异度,距离

闵可夫斯基距离(Minkowski distance):
![](http://www.forkosh.com/mathtex.cgi? d(x,y)=\left(\sum_{k=1}{n}\left|x_{k}-y_{k}\right|{r}\right)^{\frac{1}{r}})
注:r=1时,曼哈顿距离。r=2时,欧几里得距离。r=无穷时,上确界距离。
距离的性质:
(1)非负性;(2)对称性;(3)三角不等式。

2、相似度
(1)简单匹配系数(Simple Matching Coefficient,SMC)

![](http://www.forkosh.com/mathtex.cgi? SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}})
其中f11表示:x取1并且y取1的属性个数。其他类似。SMC可以是一个仅包含<strong>是非题</strong>的检测中用来发现回答问题相似的学生。

(2)Jaccard系数

![](http://www.forkosh.com/mathtex.cgi? J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}})
以上两个系数,均用于二元变量,0-1的计算。

(3)余弦相似度

![](http://www.forkosh.com/mathtex.cgi? cos(x,y)=\frac{x\cdot y}{\left | x \right |\left | y \right |}=\frac{x}{\left|x\right|}\cdot \frac{y}{\left|y\right|}=x'\cdot y')
余弦相似度从等式右边,可以看出不需要考虑量值。其中,有向量点积计算公式:
![](http://www.forkosh.com/mathtex.cgi? x\cdot y=\sum_{n}^{k=1}x_{k}y_{k},\left | x \right |=\sqrt{\sum_{n}{k=1}x_{k}{2}}=\sqrt{x\cdot x})

(4)广义Jaccard系数(Tanimoto系数,EJ)

![](http://www.forkosh.com/mathtex.cgi? EJ(x,y)=\frac{x\cdot y}{\left | x \right |^{2}+\left | y \right |^{2}-x\cdot y})

(5)相关性

Pearson相关系数,[-1,1]之间:
![](http://www.forkosh.com/mathtex.cgi? corr(x,y)=\frac{S_{xy}}{S_{x}S_{y}}=\frac{\frac{1}{n-1}\sum_{k=1}{n}(x_{k}-\bar{x})(y_{k}-\bar{y})}{\sqrt{\frac{1}{n-1}\sum_{k=1}{n}(x_{k}-\bar{x})^{2}}\cdot \sqrt{\frac{1}{n-1}\sum_{k=1}{n}(y_{k}-\bar{y}){2}}})
Bregman散度:
失真函数,损失函数。y为原来的点,x为某个失真值。给定一个严格凸函数,Bregman散度D(x,y):
![](http://www.forkosh.com/mathtex.cgi? D(x,y)=\phi (x)+\phi (y)-\left \langle \triangledown \phi(y),(x-y) \right \rangle)
后面的为梯度和内积。

2_02.png
y=1时,在x=2和x=3上的Bregman散度。
(6)马氏距离(Mahalanobis距离)

![](http://www.forkosh.com/mathtex.cgi? mahalanobis(x,y)=(x-y)\Sigma {-1}(x-y){T})
x,y为两个点,中间的为数据协方差的逆。

相关文章

  • 数据,数据

    谁的数据? 是个手机应用就想读取位置信息、通讯录,是个网站就想记录用户的浏览行为,他们保存了很多的数据。可是,这些...

  • 数据数据

    帖子来自:大数据社区|大数据学习交流社区|大数据免费学习资源_大数据巴士 头像 柠檬学院大数据 LV1 2016-...

  • 数据数据

    似懂非懂的好像又悟出来一个道理,居然对重来不愿意进脑袋的“数据”一词有了一面之交的熟悉呢。 自小到大就爱说些别人不...

  • Python Pandas Dataframe 的基本操作

    数据洞察 数据清洗 数据预处理 数据获取 数据筛选 6.数据汇总 数据输出

  • 《Python数据分析与挖掘实战》第四章 数据预处理

    主要包括数据清洗、数据集成、数据变幻和数据规约。 数据清洗 删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛...

  • 基础定义

    一、数据结构 1.1 定义 数据项——>数据元素——>数据对象——>数据 数据对象+结构——>数据结构 数据结构包...

  • pandas手册

    导入数据 导出数据 查看、检查数据 数据选取 数据清理 数据处理:Filter、Sort和GroupBy 数据合并...

  • 2019-07-25

    数据管理 元数据是关于数据的数据 元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。 元数据...

  • 日志定位

    前后端 前端: 收集数据、数据校验、数据处理、数据解析、数据展现 后端: 数据解析、数据校验、数据处理 日志定位 ...

  • reshape2数据汇总

    dcast:长数据变短数据,数据变形,汇总 长数据 由1式,得到短数据: melt:短数据变长数据 短数据: 由式...

网友评论

      本文标题:数据

      本文链接:https://www.haomeiwen.com/subject/hwazyttx.html