美文网首页PowerBI专栏
认识结构化/非结构化/半结构化数据

认识结构化/非结构化/半结构化数据

作者: PowerBI星球 | 来源:发表于2020-01-21 21:56 被阅读0次

经常做数据分析,整天接触数据,应该都知道数据有这几种类型:结构化的数据、非结构化的数据以及半结构化的数据。


结构化数据是符合具有行和列的表的相当正式规范的数据。比如一个电子表格,您可能在其中具有订单号,客户,产品单位和每单位价格的列。每行代表一个销售交易。结构化数据源是商业智能工具最容易使用和分析的资源。这些资源通常是关系数据库,其中包括诸如Microsoft SQL Server, Microsoft Access,Azure Table存储,Azure SQL数据库,Oracle,MySQL,IBM DB2,Teradata,PostgreSQL,Informix和Sybase等技术。

非结构化的数据与结构化数据相反。无法将非结构化数据组织成具有行和列的简单表。这样的数据包括诸如视频,音频,图像和文本之类的东西。文字处理文档,电子邮件,社交媒体帖子和网页也是大部分非结构化数据的示例。非结构化数据源是商务智能工具使用和分析的最困难的源类型。这种类型的数据既可以存储为二进制大对象(BLOBS),也可以存储为文件系统中的文件,例如新技术文件系统NTFS)或Hadoop分布式文件系统HDFS)。

非结构化数据还包括所谓的NoSQL数据库,其中包括数据存储,例如文档数据库,图形数据库和键值存储。这些数据库专门用于存储非结构化数据。文档数据库包括Microsoft Azure Cosmos DB,MongoDB,10Gen,Cloudant(IBM),Couchbase和MarkLogic。图形数据库包括Neo4j和HyperGraphDB。键值存储包括Microsoft的Cosmos DB,Basho Technologies的Riak,Redis,Aerospike,Amazon Web Services的DynamoDB,Basho Technologies,Couchbase,Datastax的Cassandra,MapR Technologies和Oracle。最后,宽列商店包括Cassandra和HBase。

半结构化数据具有结构,但不符合结构化数据的正式定义,即具有行和列的表。半结构化的示例包括制表符和定界文本文件,XML,其他标记语言(例如HTML和XSL),JavaScript Object NotationJSON)和电子数据交换(EDI )。半结构化数据源具有自定义结构,这使其比非结构化数据源更易于使用和分析,但比真正的结构化数据源需要更多的工作

半结构化数据还包括数据访问协议,例如开放数据协议OData)和其他表示状态传输REST)API。这些协议提供了到数据源的接口,例如Microsoft SharePoint, Microsoft Exchange,Microsoft Active Directory和Microsoft Dynamics。社交媒体系统,例如Twitter和Facebook;以及其他在线系统,例如MailChimp,Salesforce,Smartsheet,Twilio,Google Analytics 和GitHub等。这些数据协议可以抽象化数据的存储方式,无论是关系数据库,NoSQL数据库还是仅仅是一堆文件。

绝大多数商务智能工具(例如Power BI)已针对处理结构化和半结构化数据进行了优化。结构化数据源与商业智能工具的设计本机集成。此外,商业智能工具旨在吸收半结构化数据源并将其转换为结构化数据。非结构化数据更加困难,但使用商业智能工具进行分析并非不可能。实际上,Power BI具有许多旨在简化非结构化数据源的提取和分析的功能。但是,分析此类非结构化数据有其局限性。

摘选自《Learn PowerBI》


采悟 @ PowerBI星球

相关文章

  • 大数据的结构和特征

    一、大数据的结构 1.大数据的结构化 大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部...

  • 大数据相关知识架构学习

    大数据 结构化数据:关系数据。 半结构化数据:XML数据。 非结构化数据:Word, PDF, 文本,媒体日志。 ...

  • 结构化数据,半结构化数据,非结构化数据

    全文转载自:结构化数据,半结构化数据,非结构化数据[https://cloud.tencent.com/devel...

  • 180714--结构化VS半结构化VS非结构化数据--16

    结构化,来自于EXCEL 范结构化 介于 结构化和非结构化, 非结构化 网页资料,网页数据 结构化数据可以下SQL...

  • 数据分类

    应用程序数据:结构化、半结构化和非结构化数据结构化数据:结构化数据通常存储在具有行和列的数据库表中,其中键列指示表...

  • 认识结构化/非结构化/半结构化数据

    经常做数据分析,整天接触数据,应该都知道数据有这几种类型:结构化的数据、非结构化的数据以及半结构化的数据。 结构化...

  • Spark 结构化API DataFrames

    结构化API 结构化API是处理各种数据的工具,从非结构化log文件到半结构化CSV文件和高度结构化的Parque...

  • note_21.4.2_DB

    mariadb(mysql): 数据管理模型:层次模型、网状模型、关系模型 数据分类:结构化数据、半结构化数据、非...

  • Greedy NLP Learning Notes(六)信息抽取

    1. 目录 从非结构化文本中进行信息抽取从非结构化文本中进行信息抽取非结构化数据:图像、文本、视频、声音结构化数据...

  • 大数据之数据采集方法

    引言 数据源的分类,大体可以分为三类:结构化数据,半结构化数据,非结构化数据 开始 我仅对我工作中接触的数据和使用...

网友评论

    本文标题:认识结构化/非结构化/半结构化数据

    本文链接:https://www.haomeiwen.com/subject/kifyzctx.html