一、数据库技术发展概述
数据模型是数据库系统的核心和基础。分为第一代的网状、层次数据库系统、第二代的关系数据库系统和新一代的数据库系统。
1.第一代数据库系统
实质上层次模型是网状模型的特例。他们都是格式化模型。
第一代数据库系统具有如下特点:
ⅰ支持三级模式的体系结构,模式之间具有转换功能。
ⅱ 用存取路径来表示数据之间的关系。
ⅲ 独立的数据定义语言。
ⅳ 导航的数据操纵语言。
2.第二代数据库系统
支持关系数据模型的关系数据库系统是第二代数据库系统。
具有模型简单清晰、理论基础好、数据独立性强、数据库语言非过程化和标准化等特点。
3.新一代数据库系统
三个特征
⑴应支持数据管理、对象管理和知识管理
⑵必须保持或继承第二代数据库系统的技术
⑶必须对其他系统开放
二、数据仓库与数据挖掘
1.从数据库到数据仓库
计算机系统中存在两类不同的数据处理工作:一类是操作型处理,也称为联机事务处理(OLTP),另一类是分析型处理,也称为联机分析处理(OLAP)。
image.png
传统的数据库技术为操作型处理服务,数据仓库为分析型处理服务。
数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。
主要特征
⑴面向主题
⑵集成性
⑶数据的非易失性
⑷数据的时变性
三个常用的重要概念
⑴粒度
是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
⑵分割
是将数据分散到各自的物理单元中,以便能分别处理,以提高数据处理的效率。
数据分割后的单元称为切片。
⑶维
是人们观察数据的特定角度,是考虑问题时的一类属性。
数据集市结构的数据仓库,又称为主题结构数据仓库,是按照主题进行构思所形成的数据仓库。
2.数据挖掘技术
是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现并提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的一种技术。
又称为数据库中的知识发现(KDD)。
几种功能:
⑴概念描述
⑵关联分析
在数据挖掘技术中,基于关联规则的挖掘是应用较广的一种方法。
关联分为简单关联、时序关联、因果关联。
⑶分类与预测
分类就是找出一个类别的概念描述,代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。
常见的分类模型及算法有决策树模型、神经网络模型、线性回归模型。
⑷聚类
是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。
⑸孤立点检测
孤立点是指数据中与整体表现行为不一致的数据集合。
⑹趋势和演变分析
在实际使用中,数据挖掘的过程通常由以下6个步骤构成。
⑴确定业务对象
⑵数据的选择
⑶数据的预处理
⑷建模
⑸模型评估
⑹模型部署
三、大数据管理技术
1.大数据的定义
一般意义上,大数据是指无法在可容忍的时间内用现有信息技术和软、硬件工具对其进行感知、获取、管理、处理的服务的数据集合。
大数据具有如下特征
⑴数据量巨大,即大量化
⑵数据种类繁多,即多样化。
⑶处理速度快,即快速化。
⑷价值密度低。
2.大数据管理技术典型代表
大数据存储
分布式文件系统,用于统一管理服务器节点上存储的数据,典型案例是Hadoop开源架构下的分布式文件系统(HDFS)。
NoSQL数据管理系统
NoSQL是以互联网大数据应用为背景发展起来的分布式数据管理系统。
它有两种解释,一种是非关系数据库和数据管理技术不仅仅是SQL。
NoSQL系统支持的数据存储模型有
键值(Key-Value)模型、文档(Document)模型、列(Column)模型和图(Graph)模型。
⑴键值(Key-Value)存储
常见的键值存储数据库有Tokyo Cabinet/Tyrant、Redis和Oracle BDB等
⑵文档存储
常见的有CouchDB、MongoDB等
⑶列存储
常见的有Cassandra、HBase等
⑷图存储
MapReduce技术
是一种并行编程模型。
网友评论