美文网首页工作生活
结构化数据、半结构化数据和非结构化数据

结构化数据、半结构化数据和非结构化数据

作者: 古剑诛仙 | 来源:发表于2019-07-18 22:39 被阅读0次

一、结构化数据

结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:

id      name    age     gender
1       lyh     12      male
2       liangyh 13      female
3       liang   18      male

所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。

但是,它的扩展性不好。比如,如果字段不固定,利用关系型数据库也是比较困难的,有人会说,需要的时候加个字段就可以了,这样的方法也不是不可以,但在实际运用中每次都进行反复的表结构变更是非常痛苦的,这也容易导致后台接口从数据库取数据出错。你也可以预先设定大量的预备字段,但这样的话,时间一长很容易弄不清除字段和数据的对应状态,即哪个字段保存有哪些数据。

二、半结构化数据

半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。

半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。

常见的半结构数据有XML和JSON,对于对于两个XML文件,第一个可能有

<person>
    <name>A</name>
    <age>13</age>
    <gender>female</gender>
</person>

第二个可能为:

<person>
    <name>B</name>
    <gender>male</gender>
</person>

从上面的例子中,属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,标签是树的根节点,和标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。

三、非结构化数据

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。

非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

四、应用场景

结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。

半结构化数据,包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。这些应用对于数据存储、数据备份、数据共享以及数据归档 等基本存储需求。

相关文章

  • 大数据的结构和特征

    一、大数据的结构 1.大数据的结构化 大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部...

  • 大数据相关知识架构学习

    大数据 结构化数据:关系数据。 半结构化数据:XML数据。 非结构化数据:Word, PDF, 文本,媒体日志。 ...

  • 数据分类

    应用程序数据:结构化、半结构化和非结构化数据结构化数据:结构化数据通常存储在具有行和列的数据库表中,其中键列指示表...

  • 结构化数据,半结构化数据,非结构化数据

    全文转载自:结构化数据,半结构化数据,非结构化数据[https://cloud.tencent.com/devel...

  • 认识结构化/非结构化/半结构化数据

    经常做数据分析,整天接触数据,应该都知道数据有这几种类型:结构化的数据、非结构化的数据以及半结构化的数据。 结构化...

  • 大数据之数据采集方法

    引言 数据源的分类,大体可以分为三类:结构化数据,半结构化数据,非结构化数据 开始 我仅对我工作中接触的数据和使用...

  • 180714--结构化VS半结构化VS非结构化数据--16

    结构化,来自于EXCEL 范结构化 介于 结构化和非结构化, 非结构化 网页资料,网页数据 结构化数据可以下SQL...

  • note_21.4.2_DB

    mariadb(mysql): 数据管理模型:层次模型、网状模型、关系模型 数据分类:结构化数据、半结构化数据、非...

  • Java高级技术day81:Solr索引库

    一、Solr的安装 1.Solr的介绍: 的数据总体分为两种:结构化数据和非结构化数据。(1)结构化数据:指具有固...

  • TFS介绍

    简介 TFS主要针对海量非结构化(结构化的数据是指像mysql中的数据,非结构化就是像NOSQL中的数据)的小数据...

网友评论

    本文标题:结构化数据、半结构化数据和非结构化数据

    本文链接:https://www.haomeiwen.com/subject/gcezcctx.html