初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。
中级的方法可以对数据间关系的强弱进行度量,如完全相关,不完全相关等。
高级的方法可以将数据间的关系转化为模型,并通过模型对未来的业务发展进行预测。
折线图、散点图
协方差
相关系数(相关系数的取值区间在1到-1之间)
R Square的值叫做判定系数,用来度量回归方程的拟合优度。这个值越大,说明回归方程越有意义,自变量对因变量的解释度越高。
最后一种相关分析方法是信息熵与互信息。可能是一些特征值。例如用户所在的城市,用户的性别,年龄区间分布,以及是否第一次到访网站等等。这些都不能通过数字进行度量。度量这些文本特征值之间相关关系的方法就是互信息。
网友评论