信息计量学|数据标准化方法

信息计量学|数据标准化方法

作者: loonytes | 来源:发表于2018-05-23 11:00 被阅读46次

数据的标准化(normalization)是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上，常见的数据归一化的方法有:

1. min-max标准化(Min-maxnormalization)
也叫离差标准化。是对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下
设总共有n个样本，xi是第i个样本，其中1≤i≤n 。那么第i个样本的标准化为：

min-max标准化
这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。
2. log函数转换
通过以10为底的log函数转换的方法同样可以实现归一化，具体方法如下
设总共有n个样本，xi是第i个样本，其中1≤i≤n 。那么第i个样本的标准化为：

log函数转换
3. atan函数转换
atan（）称为反正切函数。使用这个方法需要注意的是如果想映射的区间为[0,1]，则数据都应该大于等于0，小于0的数据将被映射到[-1,0]区间上。具体方法如下
设总共有n个样本，xi是第i个样本，其中1≤i≤n 。那么第i个样本的标准化为：

atan函数转换

4. 标准差标准化(zero-meannormalization)
经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数如下
设总共有n个样本，xi是第i个样本，其中1≤i≤n 。那么第i个样本的标准化为：

标准差标准化
其中μ为所有样本数据的均值，σ为所有样本数据的标准差。具体计算方式为:

μ的计算

δ的计算

有关数据标准化，还有其他方法可以进行转化，此处只列出最常使用的四种方法，其中又以标准差标准化最为常用。在实际研究中可以根据自己的需要进行选择。

相关文章

网友评论

信息计量学

本文标题：信息计量学|数据标准化方法

本文链接：https://www.haomeiwen.com/subject/rbiljftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

信息计量学

热点阅读

信息计量学

关于我们|服务条款|联系我们|信息计量学|数据标准化方法|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！