(1) FROM 子句 组装来自不同数据源的数据
(2) WHERE 子句 基于指定的条件对记录进行筛选
(3) GROUP BY 子句 将数据划分为多个分组
(4) 使用聚合函数进行计算
(5) 使用HAVING子句筛选分组
(6) 计算所有的表达式
(7) 使用ORDER BY对结果集进行排序
详细执行顺序
1. FROM:对FROM子句中前两个表执行笛卡尔积生成虚拟表vt1
2. ON: 对vt1表应用ON筛选器只有满足 join_condition 为真的行才被插入vt2
3. OUTER(join):如果指定了 OUTER JOIN保留表(preserved table)中未找到的行将行作为外部行添加到vt2,生成t3,如果from包含两个以上表,则对上一个联结生成的结果表和下一个表重复执行步骤和步骤直接结束。
4. WHERE:对vt3应用 WHERE 筛选器只有使 where_condition 为true的行才被插入vt4
5. GROUP BY:按GROUP BY子句中的列列表对vt4中的行分组生成vt5
6. CUBE|ROLLUP:把超组(supergroups)插入vt6,生成vt6
7. HAVING:对vt6应用HAVING筛选器只有使 having_condition 为true的组才插入vt7
8. SELECT:处理select列表产生vt8
9. DISTINCT:将重复的行从vt8中去除产生vt9
10. ORDER BY:将vt9的行按order by子句中的列列表排序生成一个游标vc11
11. TOP:从vc10的开始处选择指定数量或比例的行生成vt11 并返回调用者
知道sql执行顺序对分析sql语句错误原因和输出结果异常有重要的作用。
例如:因为where在select 之前执行
注意top n 的写法,这里需要俩个select (基于hive,用到了开窗函数)
select a.course,a.score from
(select course,score,row_number() over(partition by course order by score desc) asn from lesson) a
where a.n<=2;
开窗函数 ,例如 count(*) over()
聚合函数,例如 count(*) group by
开窗函数 count(*) over( ) 是对查询结果的每一行都返回所有符合条件行的条数;
over关键字后的括号中的选项为空,则开窗函数会对结果集中的所有行进行聚合运算;
over关键字后的括号中的选项为不为空,则按照括号中的范围进行聚合运算。
partition by:分区子句,根据分区表达式的条件逻辑将单个结果集分成N组
order by子句:排序子句,用于对分区中的数据进行排序
使用group by 和使用partition by区别,
group by将结果汇聚成一条,而partition by 不会
group by partition by
网友评论