《SQL必知必会》笔记5-聚集函数（avg、count、max、

作者: hufengreborn | 来源:发表于2017-07-23 13:59 被阅读0次

1 使用聚集函数汇总数据（AVG、COUNT、MAX、MIN、SUM）

我们经常需要汇总数据而不用把它们都检索出来。比如：

确定表中行数（或者满足某个条件或包含某个特定值的行数）。
获得表中某些行的和。
找出表列（或所有行或者某些特定行）的最大值、最小值、平均值。

聚集函数（aggregate function）：对某些行运行的函数，计算并返回一个值。

SQL给了5个聚集函数。

函数	说明
AVG()	返回某列的平均值
COUNT()	返回某列的行数
MAX()	返回某列的最大值
MIN()	返回某列的最小值
SUM()	返回某列值的总和

1.1 AVG()函数

AVG()函数通过对表中行数计数并计算其列值之和，求得该列的平均值。AVG()可用来返回所有列的平均值，也可以返回特定列或行的平均值。

计算Products表中所有产品的平均价格：

SELECT AVG(prod_price) AS avg_price 
FROM Products;

计算特定供应商DLL01所提供产品的平均价格：

SELECT AVG(prod_price) AS avg_price
FROM Products
WHERE vend_id = 'DLL01';

注意：AVG()只能用来确定特定数值列的平均值，而且列名必须作为函数参数给出。为了获得多个列的平均值，必须使用多个AVG()函数，如AVG(num1)、AVG(num2)、AVG(num3)等。

AVG()函数在计算时，会忽略列值为NULL的行。

1.2 COUNT()函数

COUNT()函数进行计数，可确定表中行的数目或符合特定条件的行的数目。

COUNT()函数有两种使用方式：

使用COUNT(*)对表中行的数目进行计数，不管表列中包含的是空值NULL还是非空值。
使用COUNT(column)对特定列中具有值的行进行计数，忽略NULL值。

计算Customers表中顾客的总数：

SELECT COUNT(*) AS num_cust 
FROM Customers;

只计算有Email的顾客：

SELECT COUNT(cust_email) AS num_cust 
FROM Customers;

1.3 MAX()函数

MAX()函数返回指定列中的最大值，要求必须指定列名。

计算Products表中最贵物品的价格：

SELECT MAX(prod_price) AS max_price 
FROM Products;

虽然MAX()一般用来找出最大的数值或日期值，但许多DBMS允许将它用来返回任意列中的最大值，包括返回文本列中的最大值。用于文本数据时，MAX()返回按该列排序后的最后一行。

MAX()函数会忽略列值为NULL的行。

1.4 MIN()函数

MIN()函数返回指定列中的最小值，要求必须指定列名。

计算Products表中最便宜物品的价格：

SELECT MIN(prod_price) AS min_price 
FROM Products;

虽然MIN()一般用来找出最小的数值或日期值，但许多DBMS允许将它用来返回任意列中的最小值，包括返回文本列中的最小值。用于文本数据时，MIN()返回按该列排序后最前面的行。

MIN()函数会忽略列值为NULL的行。

1.5 SUM()函数

SUM()函数用来返回指定列值的和（总计）。

计算订单号为20005的所购物品的总数：

SELECT SUM(quantity) AS items_ordered
FROM OrderItems 
WHERE order_num = 20005;

计算订单号为20005的所购物品，花费的总金额：

SELECT SUM(item_price * quantity) AS total_price
FROM OrderItems 
WHERE order_num = 20005;

SUM()函数会忽略列值为NULL的行。

1.6 聚集不同的值

对所有行执行计算，指定ALL参数或者不指定参数（ALL是默认行为）。
只包含不同的值，指定DISTINCT参数。

计算特定供应商DLL01提供的产品的不同价格的平均值，也就是排除相同价格的产品。

SELECT AVG(DISTINCT prod_price) AS avg_price
FROM Products 
WHERE vend_id = 'DLL01';

在使用了DISTINCT之后，发现avg_price比较高，是因为有多个产品具有相同的较低价格，排除它们，提高了平均价格。

注意：如果指定列名，则DISTINCT只能用于COUNT()。DISTINCT不能用于COUNT(*)。DISTINCT必须使用列名，不能用于计算或表达式。

有些DBMS支持对查询结果子集进行计算的TOP和TOP PERCENT。

1.7 组合聚集函数

计算Products表中物品的数目，产品价格的最大值、最小值以及平均值。

SELECT COUNT(*) AS num_items,
       MIN(prod_price) AS price_min,
       MAX(prod_price) AS price_max,
       AVG(prod_price) AS price_avg
FROM Products;

2 分组数据（GROUP BY、HAVING）

2.1 创建分组（GROUP BY）

SELECT vend_id, COUNT(*) AS num_prods
FROM Products 
GROUP BY vend_id;

在使用GROUP BY子句前，需要知道一些重要的规定。

GROUP BY子句可以包含任意数目的列，因而可以对分组进行嵌套，更细致地进行数据分组。
如果在GROUP BY子句中嵌套了分组，数据将在最后指定的分组上进行汇总。换句话说，在建立分组时，指定的所有列都一起计算，不能从个别的列取回数据。
GROUP BY子句中列出的每一列都必须是检索列或有效的表达式（但不能是聚集函数）。如果在SELECT中使用表达式，则必须在GROUP BY子句中指定相同的表达式，不能使用别名。
大多数SQL实现不允许GROUP BY列带有长度可变的数据类型（如文本或备注型字段）。
除聚集计算语句外，SELECT语句中的每一列都必须在GROUP BY子句中给出。
如果分组列中包含具有NULL值的行，则NULL将作为一个分组返回。如果列中有多行NULL值，它们将分为一组。
GROUP BY子句必须出现在WHERE子句之后，ORDER BY子句之前。

有的SQL实现允许根据SELECT列表中的位置指定GROUP BY的列，例如，GROUP BY 2,1可表示按选择的第二个列分组，然后再按第一个列分组。

2.2 过滤分组（HAVING）

除了能用GROUP BY分组数据外，SQL还允许过滤分组。规定包括哪些分组，排除哪些分组。例如，你可能想要列出至少有两个订单的所有顾客。为此，必须基于完整的分组而不是个别的行进行过滤。

在这个例子中WHERE不能完成任务，因为WHERE过滤指定的是行而不是分组。事实上，WHERE没有分组的概念。

那么，不使用WHERE使用什么呢？SQL为此提供了另一个子句，就是HAVING子句。HAVING非常类似于WHERE，唯一的区别是，WHERE过滤行，而HAVING过滤分组。

SELECT cust_id, COUNT(*) AS orders
FROM Orders 
GROUP BY cust_id
HAVING COUNT(*) >= 2;

HAVING过滤了COUNT(*)>=2（两个以上订单）的那些分组。

WHERE子句在这里不起作用，因为过滤是基于分组聚集值，而不是特定行的值。

WHERE在数据分组前进行过滤，HAVING在数据分组后进行过滤。

SELECT vend_id, COUNT(*) AS num_prods
FROM Products 
WHERE prod_price >= 4
GROUP BY vend_id
HAVING COUNT(*) >= 2;

这条语句中，第一行是使用了聚集函数的基本SELECT语句，很像前面的例子。WHERE子句过滤所有prod_price至少为4的行，然后按vend_id分组数据，HAVING子句过滤计数为2或2以上的分组。如果没有WHERE子句，就会多检索一行（供应商DLL01，销售4个产品，价格都在4以下）。

SELECT vend_id, COUNT(*) AS num_prods
FROM Products 
GROUP BY vend_id
HAVING COUNT(*) >= 2;

注意：使用HAVING时应该结合GROUP BY子句，而WHERE子句用于标准的行级过滤。

2.3 分组和排序（GROUP BY、ORDER BY）

GROUP BY和ORDER BY经常完成相同的工作，但它们非常不同。

ORDER BY	GROUP BY
对产生的输出排序	对行分组，但输出可能不是分组的顺序
任意列都可以使用（甚至非选择的列也可以使用）	只可能使用选择列或表达式列，而且必须使用每个选择列表达式
不一定需要	如果与聚集函数一起使用列（或表达式），则必须使用

一般在使用GROUP BY子句时，应该也给出ORDER BY子句。这是保证数据正确排序的唯一方法，千万不要仅依赖GROUP BY排序数据。

检索包含三个或更多物品的订单号和订购物品的数目。

SELECT order_num, COUNT(*) AS items
FROM OrderItems 
GROUP BY order_num
HAVING COUNT(*) >= 3;

要按订购物品的数目排序输出，需要添加ORDER BY子句。

SELECT order_num, COUNT(*) AS items
FROM OrderItems 
GROUP BY order_num
HAVING COUNT(*) >= 3
ORDER BY items, order_num;

2.4 SELECT子句顺序

SELECT子句及其顺序

子句	说明	是否必须
SELECT	要返回的列或表达式	是
FROM	从中检索数据的表	仅在从表选择数据时使用
WHERE	行级过滤	否
GROUP BY	分组说明	仅在按组计算聚集时使用
HAVING	组级过滤	否
ORDER BY	输出排序顺序	否

如果您发现文中有不清楚或者有问题的地方，请在下方评论区留言，我会根据您的评论，更新文中相关内容，谢谢！

网友评论

本文标题：《SQL必知必会》笔记5-聚集函数（avg、count、max、

本文链接：https://www.haomeiwen.com/subject/hfhmkxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！