美文网首页互联网&大数据应用学习大数据,机器学习,人工智能大数据
【数据分析必备】如何在5秒以内完成数据关联?

【数据分析必备】如何在5秒以内完成数据关联?

作者: DataHunter小数 | 来源:发表于2017-08-23 14:25 被阅读35次

    简单点,数据关联的方式简单点,

    你又不是程序猿,干嘛非得什么都了解~

    提到数据关联,每个人脑子里浮现的信息可能都不一样。

    数据可视化分析的过程中,做好数据关联,对之后的分析工作至关重要!

    关联数据与数据关联

    在计算机领域,关联数据描述了一种发布结构化数据的方法,使得数据能够相互连接起来,便于更好的使用。

    而在数据可视化领域,给数据做关联是为了将存在联系的数据连接起来,以便利用这些数据再做相关分析。

    数据关联的要点

    无论是Excel中的工作表还是数据库中的表,都要保证被用来做连接的关联字段中的值唯一、不重复。

    比如“用户名”和“用户ID”两个字段,关联字段应该选择“用户ID”,原因显而易见,用户名很有可能存在重复,不符合要求。

    关联字段至少存在两个表中。

    下面小数将通过一个例子来分别对比Excel中的数据关联、数据库中的表关联以及DataHunter数据分析平台中的动态数据关联分别都是如何实现的。

    需求假设:根据某电商公司提供的销售数据:用户订单表和退单表,进行数据关联,从而找到退单用户的信息。

    订单表和退单表的原始截图分别如下:

    (订单表部分截图,表名称“全国订单明细”) (退单表部分截图,表名称“退单”)

    通过比较两个表,我们首先确认两个表中唯一的关联字段:订单号。

    针对前面提出的场景要求,下面来比较不同的方式如何对数据做关联:

    Excel 中的数据关联如何实现?

    在Excel中根据关联的方式不同会提供对应的VLOOKUP函数、MATCH函数以及INDEX函数。

    在本文的例子中,因为是根据关键字(订单号)进行关联的,所以选用的是VLOOKUP函数。对另外两个函数感兴趣的小伙伴可自行百度。

    为了方便大家理解,先对VLOOKUP函数语法做简单介绍,如下图:

    所以根据需求,在退单表中的C列和D列分别输入两个VLOOKUP函数来关联顾客姓名和退单金额:

    (关联顾客姓名) (关联退单金额 )

    输入完成后,下拉,即可将所有的退单信息关联补全。

    OK,上面就是一个简单利用VLOOKUP函数做两个表之间数据关联的简单例子。

    可以明显看到,针对想要关联的不同字段数据,每次都需要输入一遍函数,操作比较繁琐容易出错,而且硬伤是只能做单向查找。想要避免这个问题,还需要对 INDEX 和MATCH 函数做相关了解。

    我们再来看看传统数据库里面又是如何处理的。

    数据库中的数据表关联如何实现?

    首先给小白同学做个简单科普,数据库中的表关联有三种主要类型:left join(左关联)、rightjoin(右关联)、inner join(内关联)。

    概念很好理解,还是以上面的两个数据表(全国订单明细表、退单表)举例:

    如果做左关联(left join),就是保持全国订单明细表不变,以”订单号”为关联字段,把需要的退单信息(处理状态)拿进来。

    如果做右关联(right join),就是保持退单表不变,以“订单号”为关联字段,把需要的用户信息(顾客姓名、退单金额)拿进来。刚刚在Excel中的操作,大家可以简单的认为是右关联,因为我是以退单表为主表去订单明细表里拿的信息。

    如果做内关联(inner join),则是以“订单号”为关联字段,取两个表的交集即可,不再有主表的概念。

    另外说明一下,为了方便大家理解,我将“订单号”叫做了“关联字段”,在数据库中它的正规名称是“外键”。

    具体操作的话,需要用到SQL语句,我这里用left join做个简单示例,语句如下:

    是不是晕了?这些语句虽然简单,但对于没接触过的同学简直犹如天书。感谢辛苦看到这里的小伙伴们。

    不要急,接下来小数介绍的DataHunter动态数据关联,让你可以将上面的什么Excel、数据库之类的鬼东西统统忘掉,10秒内就完成数据关联!

    终极杀器:DataHunter 动态数据关联

    DataHunter为了能给不懂代码的业务人员提供更简单的数据关联操作,特意推出了方便易用的磁吸式数据关联功能。

    目前市场上的同类产品的数据关联,其设计理念仍是基于数据库里面的操作:将两个数据表进行左关联或右关联最后合成一张表,再供业务人员进行分析,灵活度较差!

    在DataHunter的磁吸式数据关联功能中,业务人员只需要上传需要关联的工作表,选取关联字段,其他的操作系统都会自动帮你完成,整个过程不到10秒!

    下图展示了在DataHunter数据可视化分析系统中是如何进行数据关联的,所用到的数据跟上文中的一模一样。


    数据关联完成后,就为后续的制作图表、数据钻取等操作做好了数据基础,至于数据关联对后续操作的好处,小数将在下篇文章中为大家揭晓,敬请期待!

    相关文章

      网友评论

        本文标题:【数据分析必备】如何在5秒以内完成数据关联?

        本文链接:https://www.haomeiwen.com/subject/gebddxtx.html