美文网首页技术干货
hive中in、not in不支持子查询的改写方法

hive中in、not in不支持子查询的改写方法

作者: 小草莓子桑 | 来源:发表于2020-03-04 00:10 被阅读0次

Error:SemanticException [Error 10249]: Line 1:146 Unsupported SubQuery Expression 'userid': Correlating expression cannot contain unqualified column references.
hive查询中,这个异常想必大家经常会遇到,在hive中,in、not in 是不支持子查询的,今天来看看替代的方法

先说说需求场景

我们模拟的需求,从A表查询的时候,需要在结果中过滤掉B表中的userid。
上sql

select DISTINCT userid FROM TABLE_A AS a WHERE a.dt >= '20200209' AND a.userid 
NOT IN  (SELECT DISTINCT userid FROM TABLE_B AS b WHERE b.dt >= '20200209');

这是我们的正常逻辑,使用not in 过滤掉b表中的userid。但是hive目前,in、not in 是不支持子查询的,就会报我们开始提到的那个错误:
Error:SemanticException [Error 10249]: Line 1:146 Unsupported SubQuery Expression 'userid': Correlating expression cannot contain unqualified column references.,我们来看看代替方法。

使用join进行改写

使用jion改写,应该是我们最先想到的一种方式,至于连接的方式,应该根据具体的需求具体分析吧,这里使用left jion示例一下,左联以后,加上b表userid为空的条件,就可以实现我们的需求

select DISTINCT a.userid FROM TABLE_A AS  a left JOIN  TABLE_B AS b
on a.userid=b.userid
WHERE b.userid is NULL;

使用EXISTS进行改写

其实我们还可以使用EXISTS进行改写,先上sql

select DISTINCT a.userid FROM TABLE_A AS a WHERE a.dt >= '20200209' 
AND NOT EXISTS  
(SELECT DISTINCT b.userid FROM TABLE_B AS b WHERE b.dt >= '20200209' AND a.userid = b.userid);

EXISTS的语法有时间给大家讲一下,这里就注意几点。
where后面使用NOT EXISTS 时候,不需要跟着字段

NOT IN写法

where userid NOT IN ()

NOT EXISTS写法

where userid NOT EXISTS ()
使用了 NOT EXISTS 后面就可以跟一个子查询,而过滤条件,文中是根据userid过滤的,所以这个通过userid的条件写到了子查询的where条件里面去了。

子查询的过滤条件
这种写法就相当于jion中的on。

hive中in、not in不支持子查询的改写方法,就为大家说到这里,欢迎大家来交流,指出文中一些说错的地方,让我加深认识,愿大家没有bug,谢谢!

相关文章

网友评论

    本文标题:hive中in、not in不支持子查询的改写方法

    本文链接:https://www.haomeiwen.com/subject/xdallhtx.html