说明
最近在做 Hive 事实表 left join 多张维表时,出现了部分数据丢失的情况(结果表数据量比原始事实表少 10000 多条),针对该问题研究,让我对 SQL on 条件与 where 条件区别有可进一步理解,特将好东西分享给大家。
Join 联表中 on、where 后面跟条件的区别
- Join 生成表的过程
数据库在通过连接两张或者多张表来返回记录时,都会生成一张中间的临时表,然后在将这张临时表返回给用户。这张临时表是分析问题的重点。 - 在使用 left join 时,on 和 where 条件的区别
- on 条件是在生成临时表时使用的条件,它不管 on 中的条件是否为真,都会返回左边表中的记录。
- where 条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有了
left join
的含义了,where 条件不为真的数据将会全部过滤掉。
示例说明
-
假设有两张表
表 1:
tab1
表 2:
tab2 - 执行如下SQL
-- SQL 1
select * form tab1 left join tab2 on (tab1.size = tab2.size) where tab2.name=’AAA’
-- SQL 2
select * form tab1 left join tab2 on (tab1.size = tab2.size and tab2.name=’AAA’)
-
输出结果
SQL 1
SQL 2 - 总结
其实以上结果的关键原因就是left join、right join、full join
的特殊性,不管 on 上的条件是否为真都会返回 left 或者 right 表中的记录,full 则具有 left 和 right 特性的并集。而 inner join 没有这个特性,则条件放在 on 和 where 中,返回的结果集是相同的。
网友评论