美文网首页初见
SQL基础--万字笔记纯干货

SQL基础--万字笔记纯干货

作者: 文知道 | 来源:发表于2020-06-17 15:48 被阅读0次

    SQL

    • SQL 的英文全称叫做 Structured Query Language

    数据库操作类型

    1. DDL,英文叫做 Data Definition Language,也就是数据定义语言,它用来定义我们的数据库对象,包括数据库、数据表和列。通过使用 DDL,我们可以创建,删除和修改数据库和表结构。

    2. DML,英文叫做 Data Manipulation Language,数据操作语言,我们用它操作和数据库相关的记录,比如增加、删除、修改数据表中的记录。

    3. DCL,英文叫做 Data Control Language,数据控制语言,我们用它来定义访问权限和安全级别。

    4. DQL,英文叫做 Data Query Language,数据查询语言,我们用它查询想要的记录,它是 SQL 语言的重中之重。在实际的业务中,我们绝大多数情况下都是在和查询打交道,因此学会编写正确且高效的查询语句,是学习的重点。

    DB、DBS 和 DBMS 的区别是什么

    • DBMS 的英文全称是 DataBase Management System,数据库管理系统,实际上它可以对多个数据库进行管理,所以你可以理解为 DBMS = 多个数据库(DB) + 管理程序。

    • DB 的英文是 DataBase,也就是数据库。数据库是存储数据的集合,你可以把它理解为多个数据表。

    • DBS 的英文是 DataBase System,数据库系统。它是更大的概念,包括了数据库、数据库管理系统以及数据库管理人员 DBA。

    • 这里需要注意的是,虽然我们有时候把 Oracle、MySQL 等称之为数据库,但确切讲,它们应该是数据库管理系统,即 DBMS。

    数据库类型

    关系型
    • 关系型数据库(RDBMS)就是建立在关系模型基础上的数据库,SQL 就是关系型数据库的
      查询语言。
    非关系型
    • NoSQL 泛指非关系型数据库,包括了榜单上的键值型数据库、文档型数据库、搜索引擎和列存储等,除此以外还包括图形数据库。

    • 键值型数据库通过 Key-Value 键值的方式来存储数据,其中 Key 和 Value 可以是简单的对象,也可以是复杂的对象。Key 作为唯一的标识符,优点是查找速度快,在这方面明显优于关系型数据库,同时缺点也很明显,它无法像关系型数据库一样自由使用条件过滤(比如 WHERE),如果你不知道去哪里找数据,就要遍历所有的键,这就会消耗大量的计算。键值型数据库典型的使用场景是作为内容缓存。Redis 是最流行的键值型数据库。

    • 文档型数据库用来管理文档,在数据库中文档作为处理信息的基本单位,一个文档就相当于一条记录,MongoDB 是最流行的文档型数据库。

    • 搜索引擎也是数据库检索中的重要应用,常见的全文搜索引擎有 Elasticsearch、Splunk 和Solr。虽然关系型数据库采用了索引提升检索效率,但是针对全文索引效率却较低。搜索引擎的优势在于采用了全文搜索的技术,核心原理是“倒排索引”。

    • 列式数据库是相对于行式存储的数据库,Oracle、MySQL、SQL Server 等数据库都是采用的行式存储(Row-based),而列式数据库是将数据按照列存储到数据库中,这样做的好处是可以大量降低系统的 I/O,适合于分布式文件系统,不足在于功能相对有限。

    • 图形数据库,利用了图这种数据结构存储了实体(对象)之间的关系。最典型的例子就是社交网络中人与人的关系,数据模型主要是以节点和边(关系)来实现,特点在于能高效地解决复杂的关系问题。

    Oracle中SQL执行过程

    从上面这张图中可以看出,SQL 语句在 Oracle 中经历了以
    下的几个步骤。

    1. 语法检查:检查 SQL 拼写是否正确,如果不正确,
      Oracle 会报语法错误。
    2. 语义检查:检查 SQL 中的访问对象是否存在。比如我们
      在写 SELECT 语句的时候,列名写错了,系统就会提示错
      误。语法检查和语义检查的作用是保证 SQL 语句没有错
      误。
    3. 权限检查:看用户是否具备访问该数据的权限。
    4. 共享池检查:共享池(Shared Pool)是一块内存池,最
      主要的作用是缓存 SQL 语句和该语句的执行计划。
      Oracle 通过检查共享池是否存在 SQL 语句的执行计划,
      来判断进行软解析,还是硬解析。那软解析和硬解析又该
      怎么理解呢?
      在共享池中,Oracle 首先对 SQL 语句进行 Hash 运算,
      然后根据 Hash 值在库缓存(Library Cache)中查找,
      如果存在 SQL 语句的执行计划,就直接拿来执行,直接
      进入“执行器”的环节,这就是软解析。
      如果没有找到 SQL 语句和执行计划,Oracle 就需要创建
      解析树进行解析,生成执行计划,进入“优化器”这个步
      骤,这就是硬解析。
    5. 优化器:优化器中就是要进行硬解析,也就是决定怎么
      做,比如创建解析树,生成执行计划。
    6. 执行器:当有了解析树和执行计划之后,就知道了 SQL
      该怎么被执行,这样就可以在执行器中执行语句了。
      共享池是 Oracle 中的术语,包括了库缓存,数据字典缓冲
      区等。我们上面已经讲到了库缓存区,它主要缓存 SQL 语
      句和执行计划。而数据字典缓冲区存储的是 Oracle 中的对
      象定义,比如表、视图、索引等对象。当对 SQL 语句进行
      解析的时候,如果需要相关的数据,会从数据字典缓冲区中
      提取。
      库缓存这一个步骤,决定了 SQL 语句是否需要进行硬解
      析。为了提升 SQL 的执行效率,我们应该尽量避免硬解
      析,因为在 SQL 的执行过程中,创建解析树,生成执行计
      划是很消耗资源的。
      你可能会问,如何避免硬解析,尽量使用软解析呢?在
      Oracle 中,绑定变量是它的一大特色。绑定变量就是在
      SQL 语句中使用变量,通过不同的变量取值来改变 SQL 的
      执行结果。这样做的好处是能提升软解析的可能性,不足之
      处在于可能会导致生成的执行计划不够优化,因此是否需要
      绑定变量还需要视情况而定。
      举个例子,我们可以使用下面的查询语句:
    SQL> select * from player where player_id = 10001;
    

    你也可以使用绑定变量,如:

    SQL> select * from player where player_id = :player_id;
    

    这两个查询语句的效率在 Oracle 中是完全不同的。如果你
    在查询 player_id = 10001 之后,还会查询 10002、
    10003 之类的数据,那么每一次查询都会创建一个新的查询解析。而第二种方式使用了绑定变量,那么在第一次查询之后,在共享池中就会存在这类查询的执行计划,也就是软解析。

    因此我们可以通过使用绑定变量来减少硬解析,减少
    Oracle 的解析工作量。但是这种方式也有缺点,使用动态
    SQL 的方式,因为参数不同,会导致 SQL 的执行效率不
    同,同时 SQL 优化也会比较困难。

    MySQL执行过程

    • 首先 MySQL 是典型的 C/S 架构,即 Client/Server 架构,服务器端程序使用的 mysqld。整体的 MySQL 流程如下图所示:



      你能看到 MySQL 由三层组成:

    1. 连接层:客户端和服务器端建立连接,客户端发送 SQL
      至服务器端;
    2. SQL 层:对 SQL 语句进行查询处理;
    3. 存储引擎层:与数据库文件打交道,负责数据的存储和读取。
    • 其中 SQL 层与数据库文件的存储方式无关,我们来看下
      SQL 层的结构:


    1. 查询缓存:Server 如果在查询缓存中发现了这条 SQL 语句,就会直接将结果返回给客户端;如果没有,就进入到解析器阶段。需要说明的是,因为查询缓存往往效率不高,所以在 MySQL8.0 之后就抛弃了这个功能。
    2. 解析器:在解析器中对 SQL 语句进行语法分析、语义分析。
    3. 优化器:在优化器中会确定 SQL 语句的执行路径,比如是根据全表检索,还是根据索引来检索等。
    4. 执行器:在执行之前需要判断该用户是否具备权限,如果具备权限就执行 SQL 查询并返回结果。在 MySQL8.0 以下的版本,如果设置了查询缓存,这时会将查询结果进行缓存。
    • 你能看到 SQL 语句在 MySQL 中的流程是:SQL 语句→缓存查询→解析器→优化器→执行器。在一部分中,MySQL和 Oracle 执行 SQL 的原理是一样的。
    • 与 Oracle 不同的是,MySQL 的存储引擎采用了插件的形式,每个存储引擎都面向一种特定的数据库应用环境。同时开源的 MySQL 还允许开发人员设置自己的存储引擎,下面是一些常见的存储引擎:
    1. InnoDB 存储引擎:它是 MySQL 5.5 版本之后默认的存
      储引擎,最大的特点是支持事务、行级锁定、外键约束
      等。
    2. MyISAM 存储引擎:在 MySQL 5.5 版本之前是默认的存储引擎,不支持事务,也不支持外键,最大的特点是速度快,占用资源少。
    3. Memory 存储引擎:使用系统内存作为存储介质,以便
      得到更快的响应速度。不过如果 mysqld 进程崩溃,则会
      导致所有的数据丢失,因此我们只有当数据是临时的情况
      下才使用 Memory 存储引擎。
    4. NDB 存储引擎:也叫做 NDB Cluster 存储引擎,主要用于 MySQL Cluster 分布式集群环境,类似于 Oracle 的
      RAC 集群。
    5. Archive 存储引擎:它有很好的压缩机制,用于文件归
      档,在请求写入时会进行压缩,所以也经常用来做仓库。
      需要注意的是,数据库的设计在于表的设计,而在 MySQL
      中每个表的设计都可以采用不同的存储引擎,我们可以根据实际的数据处理需要来选择存储引擎,这也是 MySQL 的强大之处。

    MySQL字符集

    • 字符集是 utf8,排序规则是utf8_general_ci,代表对大小写不敏感,如果设置为utf8_bin,代表对大小写敏感。
      MySQL在5.5.3版本以后增加了utf8mb4编码,其中mb4是most bytes 4的含义,用来兼容四个字节的Unicode(万国码)。utf8mb4是utf8的一个扩展。

    数据库设计 三少一多原则

    1. 数据表的个数越少越好RDBMS 的核心在于对实体和联系的定义,也就是 E-R 图(Entity Relationship Diagram),数据表越少,证明实体和联系设计得越简洁,既方便理解又方便操作。
    2. 数据表中的字段个数越少越好字段个数越多,数据冗余的可能性越大。设置字段个数少的前提是各个字段相互独立,而不是某个字段的取值可以由其他字段计算出来。当然字段个数少是相对的,我们通常会在数据冗余和检索效率中进行平衡。
    3. 数据表中联合主键的字段个数越少越好设置主键是为了确定唯一性,当一个字段无法确定唯一性的时候,就需要采用联合主键的方式(也就是用多个字段来定义一个主键)。联合主键中的字段越多,占用的索引空间越大,不仅会加大理解难度,还会增加运行时间和索引空间,因此联合主键的字段个数越少越好。
    4. 使用主键和外键越多越好数据库的设计实际上就是定义各种表,以及各种字段之间的关系。这些关系越多,证明这些实体之间的冗余度越低,利用度越高。这样做的好处在于不仅保证了数据表之间的独立性,还能提升相互之间的关联使用率。你应该能看出来“三少一多”原则的核心就是简单可复用。简单指的是用更少的表、更少的字段、更少的联合主键字段来完成数据表的设计。可复用则是通过主键、外键的使用来增强数据表之间的复用率。因为一个主键可以理解是一张表的代表。键设计得越多,证明它们之间的利用率越高。

    SELECT 的执行顺序

    查询是 RDBMS 中最频繁的操作。我们在理解 SELECT 语法的时候,还需要了解 SELECT 执行时的底层原理。只有这样,才能让我们对 SQL 有更深刻的认识。
    其中你需要记住 SELECT 查询时的两个顺序:

    1. 关键字的顺序是不能颠倒的:
    SELECT ... FROM ... WHERE ... GROUP BY ... HAVING ... ORDER BY ...
    
    1. SELECT 语句的执行顺序(在 MySQL 和 Oracle 中,SELECT 执行顺序基本相同):
    FROM > WHERE > GROUP BY > HAVING > SELECT 的字段 > DISTINCT > ORDER BY > LIMIT
    

    关键字顺序和执行顺序是下面这样的:

    SELECT DISTINCT player_id, player_name, count(*) as num # 顺序 5
    FROM player JOIN team ON player.team_id = team.team_id # 顺序 1
    WHERE height > 1.80 # 顺序 2
    GROUP BY player.team_id # 顺序 3
    HAVING num > 2 # 顺序 4
    ORDER BY num DESC # 顺序 6
    LIMIT 2 # 顺序 7
    
    • 在 SELECT 语句执行这些步骤的时候,每个步骤都会产生一个虚拟表,然后将这个虚拟表传入下一个步骤中作为输入。需要注意的是,这些步骤隐含在 SQL 的执行过程中,对于我们来说是不可见的。
    SQL 的执行原理。
    • 首先,你可以注意到,SELECT 是先执行 FROM 这一步的。在这个阶段,如果是多张表联查,还会经历下面的几个步骤:

      • 先通过 CROSS JOIN 求笛卡尔积,相当于得到虚拟表 vt(virtual table)1-1;
      • 通过 ON 进行筛选,在虚拟表 vt1-1 的基础上进行筛选,得到虚拟表 vt1-2;
      • 添加外部行。如果我们使用的是左连接、右链接或者全连接,就会涉及到外部行,也就是在虚拟表 vt1-2 的基础上增加外部行,得到虚拟表 vt1-3。
    • 当然如果我们操作的是两张以上的表,还会重复上面的步骤,直到所有表都被处理完为止。这个过程得到是我们的原始数据。

    • 当我们拿到了查询数据表的原始数据,也就是最终的虚拟表 vt1,就可以在此基础上再进行 WHERE 阶段。在这个阶段中,会根据 vt1 表的结果进行筛选过滤,得到虚拟表 vt2。

    • 然后进入第三步和第四步,也就是 GROUP 和 HAVING 阶段。在这个阶段中,实际上是在虚拟表 vt2 的基础上进行分组和分组过滤,得到中间的虚拟表 vt3 和 vt4。

    • 当我们完成了条件筛选部分之后,就可以筛选表中提取的字段,也就是进入到 SELECT 和 DISTINCT 阶段。

    • 首先在 SELECT 阶段会提取想要的字段,然后在 DISTINCT 阶段过滤掉重复的行,分别得到中间的虚拟表 vt5-1 和 vt5-2。

    • 当我们提取了想要的字段数据之后,就可以按照指定的字段进行排序,也就是 ORDER BY 阶段,得到虚拟表 vt6。

    • 最后在 vt6 的基础上,取出指定行的记录,也就是 LIMIT 阶段,得到最终的结果,对应的是虚拟表 vt7。

    • 当然我们在写 SELECT 语句的时候,不一定存在所有的关键字,相应的阶段就会省略。

    • 同时因为 SQL 是一门类似英语的结构化查询语言,所以我们在写 SELECT 语句的时候,还要注意相应的关键字顺序,所谓底层运行的原理,就是我们刚才讲到的执行顺序。

    比较运算符
    • between and 是包含开头和结尾的值的
    逻辑运算符

    and的优先级高于or

    通配符 % _
    • (%)和(_)的区别在于,(%)代表一个或多个字符,而(_)只代表一个字符。
    • 你能看出来通配符还是很有用的,尤其是在进行字符串匹配的时候。不过在实际操作过程中,我还是建议你尽量少用通配符,因为它需要消耗数据库更长的时间来进行匹配。即使你对 LIKE 检索的字段进行了索引,索引的价值也可能会失效。如果要让索引生效,那么 LIKE 后面就不能以(%)开头,比如使用LIKE '%太%'或LIKE '%太'的时候就会对全表进行扫描。如果使用LIKE '太%',同时检索的字段进行了索引的时候,则不会进行全表扫描。

    SQL函数

    • SQL 提供了一些常用的内置函数,当然你也可以自己定义 SQL 函数。SQL 的内置函数对于不同的数据库软件来说具有一定的通用性,我们可以把内置函数分成四类:
    算术函数
    • 算术函数,顾名思义就是对数值类型的字段进行算术运算。常用的算术函数及含义如下表所示:
    SELECT ABS(-2),运行结果为 2。
    SELECT MOD(101,3),运行结果 2。
    SELECT ROUND(37.25,1),运行结果 37.3。
    
    字符串函数
    • 常用的字符串函数操作包括了字符串拼接,大小写转换,求长度以及字符串替换和截取等。具体的函数名称及含义如下表所示:
    SELECT CONCAT('abc', 123),运行结果为 abc123。
    SELECT LENGTH('你好'),运行结果为 6。
    SELECT CHAR_LENGTH('你好'),运行结果为 2。
    SELECT LOWER('ABC'),运行结果为 abc。
    SELECT UPPER('abc'),运行结果 ABC。
    SELECT REPLACE('fabcd', 'abc', 123),运行结果为 f123d。
    SELECT SUBSTRING('fabcd', 1,3),运行结果为 fab。
    
    日期函数
    • 日期函数是对数据表中的日期进行处理,常用的函数包括:
    SELECT CURRENT_DATE(),运行结果为 2019-04-03。
    SELECT CURRENT_TIME(),运行结果为 21:26:34。
    SELECT CURRENT_TIMESTAMP(),运行结果为 2019-04-03 21:26:34。
    SELECT EXTRACT(YEAR FROM '2019-04-03'),运行结果为 2019。
    SELECT DATE('2019-04-01 12:00:05'),运行结果为 2019-04-01。
    

    这里需要注意的是,DATE 日期格式必须是 yyyy-mm-dd 的形式。如果要进行日期比较,就要使用 DATE 函数,不要直接使用日期与字符串进行比较,我会在后面的例子中讲具体的原因。

    转换函数
    • 转换函数可以转换数据之间的类型,常用的函数如下表所示:
    • 这两个函数不像其他函数,看一眼函数名就知道代表什么、如何使用。下面举了这两个函数的例子,你需要自己运行下:
    SELECT CAST(123.123 AS INT),运行结果会报错。
    SELECT CAST(123.123 AS DECIMAL(8,2)),运行结果为 123.12。
    SELECT COALESCE(null,1,2),运行结果为 1。
    
    • CAST 函数在转换数据类型的时候,不会四舍五入,如果原数值有小数,那么转换为整数类型的时候就会报错。不过你可以指定转化的小数类型,在 MySQL 和 SQL Server 中,你可以用DECIMAL(a,b)来指定,其中 a 代表整数部分和小数部分加起来最大的位数,b 代表小数位数,比如DECIMAL(8,2)代表的是精度为 8 位(整数加小数位数最多为 8 位),小数位数为 2 位的数据类型。所以SELECT CAST(123.123 AS DECIMAL(8,2))的转换结果为 123.12。
    聚类函数
    • 它是对一组数据进行汇总的函数,输入的是一组数据的集合,输出的是单个值。通常我们可以利用聚集函数汇总表的数据,如果稍微复杂一些,我们还需要先对数据做筛选,然后再进行聚集,比如先按照某个条件进行分组,对分组条件进行筛选,然后得到筛选后的分组的汇总信息。
    • COUNT(role_assist)会忽略值为 NULL 的数据行,而 COUNT(*) 只是统计数据行数,不管某个字段是否为 NULL。
    • 需要说明的是 AVG、MAX、MIN 等聚集函数会自动忽略值为 NULL 的数据行,MAX 和 MIN 函数也可以用于字符串类型数据的统计,如果是英文字母,则按照 A—Z 的顺序排列,越往后,数值越大。如果是汉字则按照全拼拼音进行排列。
    • 需要说明的是,我们需要先把 name 字段统一转化为 gbk 类型,使用CONVERT(name USING gbk),然后再使用 MIN 和 MAX 取最小值和最大值。比如:
    SQL:SELECT MIN(CONVERT(name USING gbk)), MAX(CONVERT(name USING gbk)) FROM heros
    

    HAVING

    • HAVING 的作用和 WHERE 一样,都是起到过滤的作用,只不过 WHERE 是用于数据行,而 HAVING 则作用于分组。HAVING 支持所有 WHERE 的操作,因此所有需要 WHERE 子句实现的功能,你都可以使用 HAVING 对分组进行筛选。
    SQL: SELECT COUNT(*) as num, role_main, role_assist FROM heros GROUP BY role_main, role_assist HAVING num > 5 ORDER BY num DESC
    

    子查询

    • 子查询,也就是嵌套在查询中的查询。这样做的好处是可以让我们进行更复杂的查询,同时更加容易理解查询的过程。因为很多时候,我们无法直接从数据表中得到查询结果,需要从查询结果集中再次进行查询,才能得到想要的结果。这个“查询结果集”就是今天我们要讲的子查询。
    • 依据子查询是否执行多次,从而将子查询划分为关联子查询和非关联子查询。
    关联子查询
    • 如果子查询需要执行多次,即采用循环的方式,先从外部查询开始,每次都传入子查询进行查询,然后再将结果反馈给外部,这种嵌套的执行方式就称为关联子查询。
    非关联子查询
    • 子查询从数据表中查询了数据结果,如果这个数据结果只执行一次,然后这个数据结果作为主查询的条件进行执行,那么这样的子查询叫做非关联子查询。
    EXISTS 子查询
    • 关联子查询通常也会和 EXISTS 一起来使用,EXISTS 子查询用来判断条件是否满足,满足的话为 True,不满足为 False。
    集合比较子查询
    • 集合比较子查询的作用是与另一个查询结果集进行比较,我们可以在子查询中使用 IN、ANY、ALL 和 SOME 操作符,它们的含义和英文意义一样:
    • 实际上在查询过程中,在我们对 cc 列建立索引的情况下,我们还需要判断表 A 和表 B 的大小。在这里例子当中,表 A 指的是 player 表,表 B 指的是 player_score 表。如果表 A 比表 B 大,那么 IN 子查询的效率要比 EXIST 子查询效率高,因为这时 B 表中如果对 cc 列进行了索引,那么 IN 子查询的效率就会比较高。
    • 需要强调的是 ANY、ALL 关键字必须与一个比较操作符一起使用。因为如果你不使用比较操作符,就起不到集合比较的作用,那么使用 ANY 和 ALL 就没有任何意义。
    SQL: SELECT team_name, (SELECT count(*) FROM player WHERE player.team_id = team.team_id) AS player_num FROM team
    

    在 SQL92 中是如何使用连接的

    • SQL92 中的 5 种连接方式,它们分别是笛卡尔积、等值连接、非等值连接、外连接(左连接、右连接)和自连接。
    笛卡尔积
    • 笛卡尔乘积是一个数学运算。假设我有两个集合 X 和 Y,那么 X 和 Y 的笛卡尔积就是 X 和 Y 的所有可能组合,也就是第一个对象来自于 X,第二个对象来自于 Y 的所有可能。
    • 笛卡尔积也称为交叉连接,英文是 CROSS JOIN,它的作用就是可以把任意表进行连接,即使这两张表不相关。但我们通常进行连接还是需要筛选的,因此你需要在连接后面加上 WHERE 子句,也就是作为过滤条件对连接数据进行筛选。比如后面要讲到的等值连接。
    等值连接
    • 两张表的等值连接就是用两张表中都存在的列进行连接。我们也可以对多张表进行等值连接。
    SQL: SELECT player_id, player.team_id, player_name, height, team_name FROM player, team WHERE player.team_id = team.team_id
    
    非等值连接
    • 当我们进行多表查询的时候,如果连接多个表的条件是等号时,就是等值连接,其他的运算符连接就是非等值查询。
    SQL:SELECT p.player_name, p.height, h.height_level
    FROM player AS p, height_grades AS h
    WHERE p.height BETWEEN h.height_lowest AND h.height_highest
    
    外连接
    • 除了查询满足条件的记录以外,外连接还可以查询某一方不满足条件的记录。两张表的外连接,会有一张是主表,另一张是从表。如果是多张表的外连接,那么第一张表是主表,即显示全部的行,而第剩下的表则显示对应连接的信息。
    • 左外连接,就是指左边的表是主表,需要显示左边表的全部行,而右侧的表是从表
    • 右外连接,指的就是右边的表是主表,需要显示右边表的全部行,而左侧的表是从表。
    自连接
    • 自连接可以对多个表进行操作,也可以对同一个表进行操作。也就是说查询条件使用了当前表的字段。

    SQL99 标准中的连接查询

    交叉连接
    • 交叉连接实际上就是 SQL92 中的笛卡尔乘积,只是这里我们采用的是 CROSS JOIN。
    SQL: SELECT * FROM player CROSS JOIN team
    
    自然连接
    • 你可以把自然连接理解为 SQL92 中的等值连接。它会帮你自动查询两张连接表中所有相同的字段,然后进行等值连接。
    SELECT player_id, team_id, player_name, height, team_name FROM player NATURAL JOIN team 
    

    视图

    • 视图一方面可以帮我们使用表的一部分而不是所有的表,另一方面也可以针对不同的用户制定不同的查询视图。比如,针对一个公司的销售人员,我们只想给他看部分数据,而某些特殊的数据,比如采购的价格,则不会提供给他。
    创建视图:CREATE VIEW
    CREATE VIEW view_name AS
    SELECT column1, column2
    FROM table
    WHERE condition
    

    数据库调优

    目的
    • 数据库调优的目的就是要让数据库运行得更快,也就是说响应的时间更快,吞吐量更大。
    如何确定优化的目标
    • 用户的反馈
    • 日志分析
    • 服务器资源使用监控
    • 数据库内部状况监控
    第一步,选择适合的 DBMS
    • 事务性处理以及安全性要求高,可以选择商业的数据库产品,如Oracle,SQL Server。数据量在百万级以下的可以用MySQL。
    • 对于MySQL,事务处理的话可以选择 InnoDB,非事务处理可以选择 MyISAM。
    • 我们还需要从数据处理的需求出发,去理解行式存储和列式存储。数据处理可以分为 OLTP(联机事务处理)和 OLAP(联机分析处理)两大类。
    • OLTP 一般用于处理客户的事务和进行查询,需要随时对数据表中的记录进行增删改查,对实时性要求高。
    • OLAP 一般用于市场的数据分析,通常数据量大,需要进行复杂的分析操作,可以对大量历史数据进行汇总和分析,对实时性要求不高。
    第二步,优化表设计
    • 表结构要尽量遵循第三范式的原则(关于第三范式,我在后面章节会讲)。这样可以让数据结构更加清晰规范,减少冗余字段,同时也减少了在更新,插入和删除数据时等异常情况的发生。
    • 如果分析查询应用比较多,尤其是需要进行多表联查的时候,可以采用反范式进行优化。反范式采用空间换时间的方式,通过增加冗余字段提高查询的效率。
    • 表字段的数据类型选择,关系到了查询效率的高低以及存储空间的大小。一般来说,如果字段可以采用数值类型就不要采用字符类型;字符长度要尽可能设计得短一些。针对字符类型来说,当确定字符长度固定时,就可以采用 CHAR 类型;当长度不固定时,通常采用 VARCHAR 类型。
    第三步,优化逻辑查询
    • SQL 查询优化,可以分为逻辑查询优化和物理查询优化。逻辑查询优化就是通过改变 SQL 语句的内容让 SQL 执行效率更高效,采用的方式是对 SQL 语句进行等价变换,对查询进行重写。
    • SQL 的查询重写包括了子查询优化、等价谓词重写、视图重写、条件简化、连接消除和嵌套连接消除等。
    • EXISTS 子查询和 IN 子查询的时候,会根据小表驱动大表的原则选择适合的子查询。
    • 在 WHERE 子句中会尽量避免对字段进行函数运算,它们会让字段的索引失效。
    第四步,优化物理查询
    1. 如果数据重复度高,就不需要创建索引。通常在重复度超过 10% 的情况下,可以不创建这个字段的索引。比如性别这个字段(取值为男和女)。
    2. 要注意索引列的位置对索引使用的影响。比如我们在 WHERE 子句中对索引字段进行了表达式的计算,会造成这个字段的索引失效。
    3. 要注意联合索引对索引使用的影响。我们在创建联合索引的时候会对多个字段创建索引,这时索引的顺序就很重要了。比如我们对字段 x, y, z 创建了索引,那么顺序是 (x,y,z) 还是 (z,y,x),在执行的时候就会存在差别。
    4. 要注意多个索引对索引使用的影响。索引不是越多越好,因为每个索引都需要存储空间,索引多也就意味着需要更多的存储空间。此外,过多的索引也会导致优化器在进行评估的时候增加了筛选出索引的计算时间,影响评估的效率。
    第五步,使用 Redis 或 Memcached 作为缓存
    • 从可靠性来说,Redis 支持持久化,可以让我们的数据保存在硬盘上,不过这样一来性能消耗也会比较大。而 Memcached 仅仅是内存存储,不支持持久化。
    • 从支持的数据类型来说,Redis 比 Memcached 要多,它不仅支持 key-value 类型的数据,还支持 List,Set,Hash 等数据结构。 当我们有持久化需求或者是更高级的数据处理需求的时候,就可以使用 Redis。如果是简单的 key-value 存储,则可以使用 Memcached。
    第六步,库级优化
    • 读写分离的方式降低主数据库的负载,比如用主数据库(master)完成写操作,用从数据库(slave)完成读操作。
    • 我们还可以对数据库分库分表。当数据量级达到亿级以上时,有时候我们需要把一个数据库切成多份,放到不同的数据库服务器上,减少对单一数据库服务器的访问压力。如果你使用的是 MySQL,就可以使用 MySQL 自带的分区表功能,当然你也可以考虑自己做垂直切分和水平切分。
    • 1NF 指的是数据库表中的任何属性都是原子性的,不可再分。
    • 2NF 指的数据表里的非主属性都要和这个数据表的候选键有完全依赖关系。
    • 3NF 在满足 2NF 的同时,对任何非主属性都不传递依赖于候选键。

    相关文章

      网友评论

        本文标题:SQL基础--万字笔记纯干货

        本文链接:https://www.haomeiwen.com/subject/wwrauhtx.html