美文网首页
数据归一化

数据归一化

作者: 天之見證 | 来源:发表于2018-12-16 22:01 被阅读0次
    1. 什么是数据归一化 ?

    2. 具体有哪些归一化 ?

    3. 为什么要归一化 ?

    1. 什么是数据归一化 ?

    standardize the range of independent variables, 因为不加这个处理的话, 计算的结果会被某个/某几个变量所控制, 而其它变量的变化则显示不出来

    例如: 在计算两个点的欧式距离的时候, x 的单位为1, y 的单位为100, 有以下3个点:

    P1: (1, 100), P2: (1.5, 100), P3: (1, 150)

    P2 是在 x 的方向移动了半个单位, P3 是在 y 的方向上移动了半个单位, 同样是半个单位, 我们却有如下关系:

    dist(P1, P2)=5 \ll dist(P1, P3)=50

    我们可能需要类似这样的结果: dist(P1,P2) \approx dist(P1,P3), 那改如何处理我们手头的数据呢 ?

    2. 具体有哪些归一化 ?

    facet min-max mean
    公式 \frac{x-\text{min}(x)}{\text{max}(x)-\text{min}(x)} \frac{x-\text{avg}(x)}{\text{max}(x)-\text{min}(x)}
    特点 将数据归置到 [0,1] 之间 将数据归置到 (-1,1) 之间
    优点 减小了标准差,抑制了异常点的影响
    缺点 容易受异常点的影响
    标准差 \delta \rightarrow \frac{1}{\text{max}(x)-\text{min}(x)}\delta \delta \rightarrow \frac{1}{\text{max}(x)-\text{min}(x)}\delta

    将上述例子中的点进行 min-max 归一化之后为:

    P1: (0, 0), P2: (1, 0), P3: (0, 1), 然后我们得到:

    dist(P1,P2)=1=dist(P1,P3)=1

    3. 归一化共性及扩展

    从以上2个归一化计算公式可以看出, 归一化之后的结果,可以更好的描述某个点到某个定点的比例,例如一个是 \text{min}(x), 一个是 \text{avg}(x), 那我们就对这个定点的计算做一个抽象, 那么这个点就可以是 \text{mode}(x) 或者其它的点

    ref:

    1. https://sebastianraschka.com/Articles/2014_about_feature_scaling.html#about-standardization
    2. https://en.wikipedia.org/wiki/Feature_scaling

    相关文章

      网友评论

          本文标题:数据归一化

          本文链接:https://www.haomeiwen.com/subject/wvcfkqtx.html