Deep Dive1- Oracle DB

作者: erixhao | 来源:发表于2016-12-27 23:56 被阅读42次

@erixhao @tech技术极客TechBooster

应一些极客朋友们要求，我们穿插一些更接地气技术文章，毕竟大多数传统非互联网公司还是使用目前较为传统的技术。暂且称这种为Deep Dive经典系列.

另外，呼吁极客朋友们帮忙转发，这样有助于我们早日获取留言，原创等高阶功能，方便大家沟通交流。

1. 饮水思源－创始人

曾几何时，Oracle可是我们这些老胳膊老腿的必备技能，没有啃过几本高级

Oracle开发指南，没读过官方指南，哪敢出门啊。不知在当今互联网＋DT时代，廉颇老矣，尚能饭否？放心，我们最后上一个DT时代的Oracle.

既然定为经典回顾，我们先上Oracle的创始人。

从左到右依次为：Ed Oates, Bruce Scott, Bob Miner, Larry Ellison.

最右边的Larry也就是我们熟知的拉里·埃里森。

来一张成名后的图：

Larry是霸气的商界奇才，其一生的目标是“财富榜超越Bill Gates”.

Larry算是大气晚成，在其32岁时依然一事无成，工作，生活皆不如意，甚至还未获得大学文聘，尽管读了3所大学。然而其后事业却如日中天，创立了Oracle，并传奇性的令其业绩连续12年每年翻一番，其商业才能令业界刮目，连当年Jobs重返Apple都邀请Larry加入董事会助力。想到当年的一个笑话，一家公司同时邀请Oracle与Sun开会，Oracle各个西装革履，Sun要么教授气息，要么工程师特点T-Shirt，呵呵，Oracle不赢都难。

2. 系统架构

2.1 关系数据库3范式

提及RDBMS怎能不提及数据库范式，多少90后的同学/互联网同学还知道啊？

关系数据库有6种范式，普通只要满足3种范式即可。

第一范式1NF：最基本范式，确保每列原子性，即每个字段都是不可分分解的原子值，如列‘联系信息’，包含了电话号码，邮件地址。即违反了第一范式。

第二范式2NF：在第一范式基础上，一是表必须有一个主键；二是没有包含在主键中的列必须完全依赖于主键，而不能只依赖于主键的一部分。如表包含订单号，商品编号，商品名称，商品单价等，订单号＋商品编号作为主键，而商品名称，单价仅仅依赖于主键的商品编号，则其违反了第二范式。

第三范式3NF：在第二范式基础上, 每一列必须直接依赖于主键而非间接相关。如，存在一个部门信息表，其中每个部门有部门编号（dept_id）、部门名称、部门简介等信息。那么在员工信息表中列出部门编号后就不能再将部门名称、部门简介等与部门有关的信息再加入员工信息表中。

以上3个范式主要目的是消除数据冗余，保证数据完整性。2NF与3NF主要区别：2NF非主键列是否完全依赖于主键，还是依赖于主键的一部分；3NF非主键列是直接依赖于主键，还是直接依赖于非主键列。

值得注意的是，在关系数据库领域被奉为圣经的范式，在大数据时代，NOSQL数据库则大反其道而行，正所突破创新敢于颠覆固有思想。

2.2 Oracle系统架构

接下来我们进入系统架构：

当我们提及Oracle时，通常包含了2个概念:

Database数据库是指一系列的文件，通常保存在磁盘，用来存储数据。

Database Instance

数据库实例则是指数据库运行时内存的结构。

如上图系统架构包含SGA(System Global Area),PGA(Program Global Area)以及后台运行process。

下面我们一一拆解：

SGA(System Global Area) :系统全局区，官方定义为一片共享读写区，被

oracle所有进程，包括服务进程与后台进程共享。每一个数据库实例都有自己的SGA.

http://docs.oracle.com/cd/E11882_01/server.112/e40540/startup.htm#CNCPT601

Oracle Online Document

SGA包含了Shared Pool共享池，Buffer Cache缓冲区缓存,Large Pool大型池, Java

Pool, Stream Pool, PGA(Process Global Area)等.

Shared Pool: 共享池用来缓存最近被执行的sql，语句以及最近使用的数据定义；包括

Library Cache(共享sql)，用来存放sql命令；与Data Dictionary Cache(数据字典缓冲)，用来存放数据库运行的动态信息。共享池会在所有会话session中共享可见。当执行一个sql时，oracle会首先检查共享池是否有此sql；Server Result Cache: 缓存了sql返还结果，以及pl/sql的函数返回结果。

Fixed SGA:固定SGA, 官网称其为内部housekeeping ，包含了数据以及实例的状态，锁，以及其他SGA区地址索引区。

Redo Log Buffer:一个循环的，用于缓冲写到在线重做日志的数据；Online Redo Log是为确保已经提交的事务不会丢失的机制，如当crash时，可以恢复数据。

Database Buffer Cache:缓冲区缓存用于缓存从数据文件中检索出来的数据块，从而大大提高查询与更新数据的性能。

Large Pool:名字叫“大池”？不知道怎么翻译，用于大块内存分配。v8.0中引入，主要针对大块内存分配，但与共享池缓存管理内存不同之处在于，大内存对象使用后立即释放。

Java Pool: 在数据库运行java时使用。如编写java存储过程。

Stream Pool:9i后增加的流技术，用来共享，复制数据工具。10g后加入流池。

PGA:Process Global Area为每个连接session保留内存。

可以通过sql查看各个区间大小：

select pool ,sum(bytes) bytes from v$sgastat group by pool;

2.3 存储结构

Oracle的存储结构分为物理，逻辑存储结构(Table, View, Index)，这样设计的原因是为了解耦，做到物理实际存储与逻辑存储不影响，如修改数据文件名字不影响table名字等。

2.3.1 物理存储结构

Data File:保存在磁盘的物理文件，包含了table，index等数据结构。后缀为.dbf, 一个表空间对应多个数据文件，一个数据文件对应一个表空间。

SQL> DESCDBA_DATA_FILES;

Control File: 存储实例，数据文件与日志文件等信息的二进制文件。用于记录整个数据库的状态以及物理结构。如，数据名，创建时间，数据文件名字与位置，redo log名字位置，checkpoint等。

SQL> DESCV$DATAFILE;

Online Redo Log: 在线重做日志，就是日志，记录用户对数据库的所有操作信息。用来保障数据库的安全，也可以实现数据备份与恢复。

SQL>SELECT GROUP#,MEMBERS,STATUS FROM V$LOG;

2.3.2 逻辑存储结构

逻辑存储包括表空间，段，区和数据段等组成，面向用户的。

Tablespace:表空间是最大逻辑存储结构，一个数据库对应多个表空间，一个表空间对应一个或多个数据文件；这样做可以提高数据访问性能，另外方便数据管理，备份，恢复等。表空间又划分为系统表空间与非系统表空间（撤销表空间，临时表空间，用户表空间）。

Segment:一个段跨越多个数据文件，属于一个表空间。一个段由多个

extent组成。

Extent:区由连续的数据块data block组成，多个区构成段。

Data Block:数据块是数据存取的最小单位。

3. 数据库索引

Index是一种在表上可选的数据结构，在一定条件下可以加快查询速度，减少系统磁盘I/O. 针对于heap-organized表，如果没有index，数据库通常会执行全表扫描查询。Index在逻辑上，物理上都独立于数据。

索引类型：

B-Tree索引：B-树索引，Balanced Tree平衡树当年数据结构学过。最常用或者默认create index索引，又分为正常以及倒序索引。主要适用于主键或者highly-selective(该列又很多不同值)。当所选取数据小于10％，性能较佳。B-Tree基于二叉树，由分支块branch与叶块leaf组成。

Branch Blocks主要用来搜索，Leaf Blocks存储了数据。branch level为树的高度－1.

Bitmap Indexes: 位图索引,位图索引适用于一些极其有限选择数据的列，如性别，月份等。通常只有对表中多个值相对较小的多个列都适用位图索引才有用，否则还是需要全表扫描。如，对于性别，每次搜索都会返回一半记录。这些索引更适合数据仓库，换言之更新不频繁，否则效率不高。

Bitmap Join Index: 位图连接索引，这些索引将位图化的列从表数据中抽取出来，并将其存储在索引中。

Function-Based Indexes:基于函数的索引，指索引中的一列或者多列是一个函数或者表达式，索引根据函数或表达式计算索引列的值。

如基于下面表达式：

CREATE INDEX emp_total_sal_idx ON employees (12 * salary * commission_pct, salary, commission_pct);

如基于函数：

CREATE INDEX emp_fname_uppercase_idx

ON employees ( UPPER(first_name) );

Cluster Index: 簇索引，聚簇是根据码值找到数据的物理存储位置，从而达到快速检索数据的目的。聚簇索引的顺序就是数据的物理存储顺序，叶节点就是数据节点。非聚簇索引的顺序与数据物理排列顺序无关，叶节点仍然是索引节点，只不过有一个指针指向对应的数据块。一个表最多只能有一个聚簇索引。但是建立聚簇索引的空间耗费比较大对以后的增加删除的影响比较大，所以要在有必要的情况下用.也就是说聚族索引的组织顺序和数据本身的组织顺序是一致的

Application Domain Indexes: 域索引,为用户自定义数据类型创建用户定义索引类型。

HASH索引：HASH索引必须建立HASH集群。

Oracle还提供其他一些索引，如二进制对象CLOB, 创建索引Oracle TEXT.

4. 数据并发控制

数据库的并发与事务是RDBMS的核心。

4.1Transaction事务控制

数据库中的事务是工作的逻辑单元，一个事务由一个或者多组相关sql组成，通过一定的事务机制来确保这一组DML(Insert/Update/Delete)的操作要么全部成功过执行，要么一点也不执行，目的是确保数据的完整性。

讲到事务不得不提著名的作为RDBMS理论基石的ACID,

4.2 ACID:

Atomicity原子性: 即上文提到的所有操作要么全做，要么不做，保证数据完整性。如两张银行转账，从a卡转出，从b卡转入。

Consistency一致性：指数据库在事务操作前和事务处理后，数据必须满足业务规则约束。

Isolation隔离性：指数据库允许并发的事务同时对其中的数据进行读写，隔离性可以防止多个事务的并发执行冲突，以及命令交叉执行导致数据不一致。

Durability持久性：指事务处理之后，对数据的修改应该是永久的，包括系统遇到故障情况下，数据也不能丢失。

再提一下注明的CAP理论，作为NOSQL的基石，NOSQL主要重视性能与扩展，非事务。

4.3 CAP原则

任何分布式系统/数据库最多可以保证以下三个属性的两个，三者不可兼得：

Consistency 一致性：在分布式系统中所有数据备份，在同一时刻是否同样的值；即所有数据变动都是同步的。

Avaiability 可用性：系统始终保持可用状态，支持多点，集群。

Partition Tolerance: 分区容错：系统在出现网络Partition的时候仍然可以操作；即是否能够有效处理节点间的通信故障。

4.4 事务隔离级别

Read Uncomitted：脏读，事务读取了另外一个没有提交的事务数据，脏数据。

Read Committed: 提交读，允许其他事务修改当前事务所读取数据，当那个事务提交后，当前事务可以看到修改后的数据。

Repeatable Read:可重复读，一个事务所读取数据记录不允许被其他事务修改。

Serializable:序列化，最高隔离级别，所有事务都是一个接一个，事务以串行方式执行，不会发生失误冲突问题。

4.5 锁

当事务对某个数据操作前，先向系统发出请求，对其加锁；在该事务释放锁之前，其他事务不能对此数据进行更新操作。几本锁类型：排它锁(X)和共享锁(S)。当数据被加上排它锁时，其他事务对它不能读取和修改。加了共享锁的数据对象可以被其他事务读区，但不能修改。

oracle分为latch类型锁用来保护内存结构以及lock锁用来保护数据，索引等。

Oracle提供了如下几种lock锁：

DML Locks:主要用来保护数据，如表锁锁住整个表，行锁锁住选择出来的行。

DDL Locks:保护schema的结构等数据库结构完整，如数据字典中表，试图的定义。

System Locks:保护内部数据库结构，如data files, latches, mutexes etc.

DML锁包括TM表锁TX事务级锁或行锁。

Table Locks(TM)表锁:确保在修改表内容时，表的结构不会改变；表锁又细分为如下几种模式：

Row Locks(TX) 行锁，当使用dml中的insert,update,delete, select ... for update等。

事务发起第一个修改时会得到事务锁/行锁，而且会一直持有这个锁，直至事务提交或回滚。TX锁使用排队机制。

当Oracle执行DML语句时，系统自动在所要操作的表上申请TM类型的锁。当TM锁获得后，系统再自动申请TX类型的锁，并将实际锁定的数据行的锁标志位进行置位，包含如上6种。

5. SQL

SQL不多讲了，上一个sql处理流程吧：

当访问表获取数据时可能会涉及如下path：

Full table scans：全表扫描

Rowid scans：rowid扫描

Index scans：使用索引扫描数据

Cluster scans：使用cluster index扫描数据

Hash scans：使用hash cluster扫描

可以看出，这里与我们上面介绍的索引有密切关联。

好了，时间关系，我们的介绍先到这里，主要涉及一些oracle的基本原理性的概念，蜻蜓点水。

最后上一个Oracle 12c的一个roadmap作为结束。

Oracle Database Administrator's Guid 11g Release 2.

Oracle Database SQL Language Reference.

Oracle Database Reference 11g Release.

http://docs.oracle.com/en/database/database.html

公众号：技术极客TechBooster

Deep Dive1- Oracle DB

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

技术极客TechBooster

Oracle数据库管理之道

我爱编程