直白地讲,探索性数据分析表现为画直方图或茎叶图。其有别于验证性数据分析。验证性数据分析偏向于模型和假设。在探索性数据分析中,没有假设,没有 模型。探索性是指对问题的理解会随着研究的深入而不断变化。
探索性数据分析的基本工具是图、表和汇总统计量。它可以展示所有变量的分布情况、时间序列数据和变换变量,利用散点矩阵展示变量之间的关系,得到所有汇总统计量。简单讲,即为计算均值、最小值、最大值、上下四分位数和确定异常值。
使用探索性数据分析有很多原因。包括获取对数据的直觉,比较变量的分布,对数据进行检查(确保数据规模在预期范围内,数据格式标准)、发现数据中的缺失值和异常值、对数据进行总结。
在探索性数据分析中,可根据对数据的理解优化算法。比如,如果开发一种排名算法,改算法对推荐给用户的内容进行排名。为此,可能需要定义“流行度”的概念。
在决定以什么方式量化“流行度”之前(方法有最高点击率、最多的回复率,大于某一阈值的回复量或者众多指标的加权平均值),需要先了解数据的运作表现,而最好的方法就是观察数据。
网友评论