数据归一化

数据归一化

作者: 天之見證 | 来源:发表于2018-12-16 22:01 被阅读0次

什么是数据归一化 ?
具体有哪些归一化 ?
为什么要归一化 ?

1. 什么是数据归一化 ?

standardize the range of independent variables, 因为不加这个处理的话, 计算的结果会被某个/某几个变量所控制, 而其它变量的变化则显示不出来

例如: 在计算两个点的欧式距离的时候, $x$ 的单位为 $1$ , $y$ 的单位为 $100$ , 有以下3个点:

P1: $(1, 100)$ , P2: $(1.5, 100)$ , P3: $(1, 150)$

P2 是在 $x$ 的方向移动了半个单位, P3 是在 $y$ 的方向上移动了半个单位, 同样是半个单位, 我们却有如下关系:

$dist(P1, P2)=5 \ll dist(P1, P3)=50$

我们可能需要类似这样的结果: $dist(P1,P2) \approx dist(P1,P3)$ , 那改如何处理我们手头的数据呢 ?

2. 具体有哪些归一化 ?

facet	min-max	mean
公式	$\frac{x-\text{min}(x)}{\text{max}(x)-\text{min}(x)}$	$\frac{x-\text{avg}(x)}{\text{max}(x)-\text{min}(x)}$
特点	将数据归置到 $[0,1]$ 之间	将数据归置到 $(-1,1)$ 之间
优点	减小了标准差,抑制了异常点的影响
缺点	容易受异常点的影响
标准差	$\delta \rightarrow \frac{1}{\text{max}(x)-\text{min}(x)}\delta$	$\delta \rightarrow \frac{1}{\text{max}(x)-\text{min}(x)}\delta$

将上述例子中的点进行 min-max 归一化之后为:

P1: $(0, 0)$ , P2: $(1, 0)$ , P3: $(0, 1)$ , 然后我们得到:

$dist(P1,P2)=1=dist(P1,P3)=1$

3. 归一化共性及扩展

从以上2个归一化计算公式可以看出, 归一化之后的结果,可以更好的描述某个点到某个定点的比例,例如一个是 $\text{min}(x)$ , 一个是 $\text{avg}(x)$ , 那我们就对这个定点的计算做一个抽象, 那么这个点就可以是 $\text{mode}(x)$ 或者其它的点

ref:

相关文章

网友评论

本文标题：数据归一化

本文链接：https://www.haomeiwen.com/subject/wvcfkqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|数据归一化|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！