美文网首页
数据管理技术的发展

数据管理技术的发展

作者: 薛落花随泪绽放 | 来源:发表于2022-08-23 09:33 被阅读0次

    一、数据库技术发展概述

    数据模型是数据库系统的核心和基础。分为第一代的网状、层次数据库系统、第二代的关系数据库系统和新一代的数据库系统。

    1.第一代数据库系统

    实质上层次模型是网状模型的特例。他们都是格式化模型。
    第一代数据库系统具有如下特点:
    ⅰ支持三级模式的体系结构,模式之间具有转换功能。
    ⅱ 用存取路径来表示数据之间的关系。
    ⅲ 独立的数据定义语言。
    ⅳ 导航的数据操纵语言。

    2.第二代数据库系统

    支持关系数据模型的关系数据库系统是第二代数据库系统。
    具有模型简单清晰、理论基础好、数据独立性强、数据库语言非过程化和标准化等特点。

    3.新一代数据库系统

    三个特征
    ⑴应支持数据管理、对象管理和知识管理
    ⑵必须保持或继承第二代数据库系统的技术
    ⑶必须对其他系统开放

    二、数据仓库与数据挖掘

    1.从数据库到数据仓库

    计算机系统中存在两类不同的数据处理工作:一类是操作型处理,也称为联机事务处理(OLTP),另一类是分析型处理,也称为联机分析处理(OLAP)。


    image.png

    传统的数据库技术为操作型处理服务,数据仓库为分析型处理服务。
    数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。

    主要特征
    ⑴面向主题
    ⑵集成性
    ⑶数据的非易失性
    ⑷数据的时变性

    三个常用的重要概念
    ⑴粒度
    是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。

    ⑵分割
    是将数据分散到各自的物理单元中,以便能分别处理,以提高数据处理的效率。
    数据分割后的单元称为切片。

    ⑶维
    是人们观察数据的特定角度,是考虑问题时的一类属性。

    数据集市结构的数据仓库,又称为主题结构数据仓库,是按照主题进行构思所形成的数据仓库。

    2.数据挖掘技术

    是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现并提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的一种技术。
    又称为数据库中的知识发现(KDD)。
    几种功能:
    ⑴概念描述

    ⑵关联分析
    在数据挖掘技术中,基于关联规则的挖掘是应用较广的一种方法。
    关联分为简单关联、时序关联、因果关联。

    ⑶分类与预测
    分类就是找出一个类别的概念描述,代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。
    常见的分类模型及算法有决策树模型、神经网络模型、线性回归模型。

    ⑷聚类
    是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。

    ⑸孤立点检测
    孤立点是指数据中与整体表现行为不一致的数据集合。

    ⑹趋势和演变分析

    在实际使用中,数据挖掘的过程通常由以下6个步骤构成。
    ⑴确定业务对象
    ⑵数据的选择
    ⑶数据的预处理
    ⑷建模
    ⑸模型评估
    ⑹模型部署

    三、大数据管理技术

    1.大数据的定义

    一般意义上,大数据是指无法在可容忍的时间内用现有信息技术和软、硬件工具对其进行感知、获取、管理、处理的服务的数据集合。

    大数据具有如下特征
    ⑴数据量巨大,即大量化
    ⑵数据种类繁多,即多样化。
    ⑶处理速度快,即快速化。
    ⑷价值密度低。

    2.大数据管理技术典型代表

    大数据存储

    分布式文件系统,用于统一管理服务器节点上存储的数据,典型案例是Hadoop开源架构下的分布式文件系统(HDFS)。

    NoSQL数据管理系统

    NoSQL是以互联网大数据应用为背景发展起来的分布式数据管理系统。
    它有两种解释,一种是非关系数据库和数据管理技术不仅仅是SQL。
    NoSQL系统支持的数据存储模型有
    键值(Key-Value)模型、文档(Document)模型、列(Column)模型和图(Graph)模型。

    ⑴键值(Key-Value)存储
    常见的键值存储数据库有Tokyo Cabinet/Tyrant、Redis和Oracle BDB等

    ⑵文档存储
    常见的有CouchDB、MongoDB等

    ⑶列存储
    常见的有Cassandra、HBase等

    ⑷图存储

    MapReduce技术

    是一种并行编程模型。

    相关文章

      网友评论

          本文标题:数据管理技术的发展

          本文链接:https://www.haomeiwen.com/subject/coregrtx.html