美文网首页玩转大数据大数据大数据,机器学习,人工智能
如何在impala中计算多个数值字段的相关系数矩阵?

如何在impala中计算多个数值字段的相关系数矩阵?

作者: 真依然很拉风 | 来源:发表于2019-04-09 00:42 被阅读19次

如下图。

如何在impala中计算多个数值字段的相关系数矩阵? 如何在impala中计算多个数值字段的相关系数矩阵?

这里有两个问题:

1. hive和spark都有corr函数,impala貌似没有,那怎么计算相关系数?难道只能套公式来计算?

2. hive和spark的corr函数貌似只支持两个字段,怎么计算多个字段的相关系数矩阵?难道要迭代n^2/2次来计算两两相关系数?

如果用PySpark或SparkR,可以在内存撑得住的情况下,把集群数据转化为单机数据,再用单机dataframe下的调包法解决。如果只有impala环境,这个问题该如何解决?是否无解?

相关文章

网友评论

    本文标题:如何在impala中计算多个数值字段的相关系数矩阵?

    本文链接:https://www.haomeiwen.com/subject/tbfviqtx.html