关于对数的一些小知识:
这一篇是关于对数变换的
在对数据进行处理,或者进行可视化的时候,经常要对数据进行转换,有时候就会用到对数变换。
在网上整理了一些资料,如下。
对数变换(log transformation),是特殊的一种数据变换方式,它可以将一类我们理论上未解决的问题转换为已经解决的问题。
数据变换的目的,是能够让它符合我们的假设,是我们能够在已有理论上对其进行分析。
为什么要做数据变换
在上一篇中 对数坐标轴,其实又说到,类似的情况
数据变换,是为了更便捷的发现数据之间的关系(更好的数据可视化)
比如,对两个指标做散点图:

会发现,横坐标的数据差异较大,且集中在较小值的一端,我们就可以对横坐标取个对数

数据就很分散了
为什么可以做数据变换
这也是我一开始很困惑的地方,现在其实也没有很好地理解,只是知道可以这样做
找到的资料中,有对数据进行验证的
很多都提到了异方差,数据分布等等,经济学上的很多模型也都是这样处理的
特征工程
有资料说,数据变换,是特征工程的一种技巧,用来减轻数据分布倾斜的影响,使原本密集的区间的值,尽可能的分散。
对数变换,主要作用在于帮助稳定方差,始终保持分布接近于正态分布
有偏数据,经过对数变换:


附录
参考了几篇知乎的回答:
网友评论