结构化数据与非结构化数据:结构化数据由明确定义的数据类型组成,这些数据类型的模式使它们易于搜索;而非结构化数据*- “一切” -包括数据的通常是不容易搜索,包括格式,如音频,视频和社交媒体帖子。
非结构化数据与结构化数据并不表示两者之间存在任何实际冲突。客户选择一个或另一个不是基于他们的数据结构,而是基于使用它们的应用程序:用于结构化的关系数据库,以及用于非结构化数据的大多数其他类型的应用程序。
但是,在对结构化数据进行分析的简便性与对非结构化数据进行更具挑战性的分析之间,存在着越来越大的压力。结构化数据分析是一种成熟的过程和技术。非结构化数据分析是一个新兴行业,在研发方面投入了大量新资金,但并不是一项成熟的技术。公司内部的结构化数据与非结构化数据的问题正在决定公司是否应该对非结构化数据的分析进行投资,以及是否有可能将两者整合为更好的商业智能。
数据管理资源:Forrester Wave –主数据管理
什么是结构化数据?
结构化数据通常驻留在关系数据库(RDBMS)中。字段存储长度限定的数据电话号码,社会保险号或邮政编码。记录中甚至包含长度可变的文本字符串(如名称),这都使搜索变得简单。只要数据是在RDBMS结构中创建的,数据就可以是人为生成的或机器生成的。既可以通过人工生成的查询,也可以通过使用数据类型和字段名称(例如字母或数字,货币或日期)的算法来搜索这种格式。
具有结构化数据的常见关系数据库应用程序包括航空公司预订系统,库存控制,销售交易和ATM活动。结构化查询语言(SQL)可以在关系数据库中对这种类型的结构化数据进行查询。
一些关系数据库确实存储或指向非结构化数据,例如客户关系管理(CRM)应用程序。集成最多可能很尴尬,因为备注字段不会借给传统的数据库查询。尽管如此,大多数CRM数据都是结构化的。
什么是非结构化数据?
非结构化数据本质上是其他所有内容。非结构化数据具有内部结构,但未通过预定义的数据模型或架构进行结构化。它可以是文本的也可以是非文本的,并且可以是人为生成的或机器生成的。它也可以存储在非关系数据库(如NoSQL)中。
由人产生的典型非结构化数据包括:
- 文本文件: 文字处理,电子表格,演示文稿,电子邮件,日志。
- 电子邮件: 电子邮件由于其元数据而具有某种内部结构,有时我们将其称为半结构化。但是,其消息字段是非结构化的,传统的分析工具无法对其进行解析。
- 社交媒体: 来自Facebook,Twitter,LinkedIn的数据。
- 网站: YouTube,Instagram,照片共享网站。
- 移动数据: 短信,位置。
- 通讯: 聊天,即时消息,电话录音,协作软件。
- 媒体: MP3,数码照片,音频和视频文件。
- 业务应用程序: MS Office文档,生产力应用程序。
机器生成的典型非结构化数据包括:
- 卫星图像: 天气数据,土地形态,军事动向。
- 科学数据: 油气勘探,太空勘探,地震影像,大气数据。
- 数字监视: 监视照片和视频。
- 传感器数据: 交通,天气,海洋学传感器。
最具包容性的大数据分析同时使用结构化和非结构化数据。
结构化数据与非结构化数据的区别是什么?
除了在关系数据库中存储与在数据库外部存储之间存在明显的区别外,最大的区别是分析结构化数据与非结构化数据的简便性。存在用于结构化数据的成熟分析工具,但是用于挖掘非结构化数据的分析工具是新生和发展中的。
用户可以跨文本非结构化数据运行简单的内容搜索。但是,由于缺乏有序的内部结构,因此无法达到传统数据挖掘工具的目的,并且企业无法从潜在有价值的数据源(如富媒体,网络或博客,客户互动和社交媒体数据)获得任何价值。即使市场上出现了非结构化数据分析工具,也没有哪个供应商或工具集是明确的赢家。而且许多客户都不愿投资具有不确定的发展路线图的分析工具。
最重要的是,非结构化数据比结构化数据要多得多。非结构化数据占企业数据的80%以上,并且以每年55%和65%的速度增长。由于没有用于分析这些海量数据的工具,组织将大量有价值的数据留在了商业智能表上。
结构化与非结构化数据传统上,大数据应用程序更容易消化结构化数据,但如今的数据分析解决方案在这一领域取得了长足的进步。
半结构化数据如何适合结构化和非结构化数据
半结构化数据维护用于标识单独数据元素的内部标签和标记,从而可以进行信息分组和层次结构。文档和数据库都可以是半结构化的。此类数据仅代表结构化/半结构化/非结构化数据饼的5-10%,但具有关键的业务使用案例。
电子邮件是半结构化数据类型的一个非常常见的示例。尽管对于线程跟踪,近乎重复和概念搜索而言,更高级的分析工具是必需的;电子邮件的本机元数据无需任何其他工具即可进行分类和关键字搜索。
电子邮件是一个巨大的用例,但是大多数半结构化开发中心都在缓解数据传输问题。与基于Web的数据共享和传输一样,共享传感器数据正在成为一个日益增长的用例:电子数据交换(EDI),许多社交媒体平台,文档标记语言和NoSQL数据库。
半结构化数据的示例
-
XML 这是一种半结构化文档语言。XML是一组文档编码规则,这些规则定义了人类可读和机器可读的格式。(尽管说XML是人类可读的,但这并没有带来什么大的麻烦:任何试图读取XML文档的人都与他们的时间有关。)其价值在于其标签驱动的结构高度灵活,编码人员可以对其进行修改以实现Web上的数据结构,存储和传输的通用化。
-
JSON(JavaScript Object Notation) JSON是另一种半结构化数据交换格式。Java的名称中隐含了Java,但其他类似C的编程语言也可以识别它。它的结构由名称/值对(或对象,哈希表等)和有序值列表(或数组,序列,列表)组成。由于该结构可在多种语言之间互换,因此JSON擅长在Web应用程序和服务器之间传输数据。
-
NoSQL 半结构化数据也是许多NoSQL(“不仅是SQL”)数据库的重要元素。NoSQL数据库与关系数据库不同,因为它们不会将组织(架构)与数据分开。这使NoSQL成为存储不容易适合记录和表格式的信息(例如长度可变的文本)的更好选择。它还使数据库之间的数据交换更加容易。一些较新的NoSQL数据库(例如MongoDB和Couchbase)还通过以JSON格式本机存储它们来合并半结构化文档。
在大数据环境中,NoSQL不需要管理员将运营和分析数据库分离到单独的部署中。NoSQL是运营数据库,并承载用于商业智能的本机分析工具。在Hadoop环境中,NoSQL数据库吸收和管理传入的数据并提供分析结果。
这些数据库在大数据基础架构和实时Web应用程序(如LinkedIn)中很常见。在LinkedIn上,数亿企业用户可以自由共享职位,位置,技能等;LinkedIn会以半结构化格式捕获大量数据。当求职用户创建搜索时,LinkedIn会将查询与其庞大的半结构化数据存储相匹配,将数据交叉引用到招聘趋势中,并与求职者共享所得到的建议。在高级LinkedIn服务(如Salesforce)中,对销售和市场查询的处理过程相同。亚马逊还根据半结构化数据库为其读者提供建议。
结构化与非结构化数据:下一代工具将改变游戏规则
新工具可用于分析非结构化数据,特别是在给定特定用例参数的情况下。这些工具大多数基于机器学习。结构化数据分析也可以使用机器学习,但是海量数据和许多不同类型的非结构化数据都需要它。
几年前,使用关键字和关键短语的分析师可以搜索非结构化数据,并对数据涉及的内容有一个体面的认识。电子数据展示曾经(并且是)这种方法的主要示例。但是,非结构化数据的增长如此之快,以至于用户需要采用不仅以计算速度运行的分析,而且还需要从其活动和用户决策中自动学习的分析。自然语言处理(NLP),模式感测和分类以及文本挖掘算法都是常见的示例,文档相关性分析,情感分析和筛选器驱动的Web收集也是如此。具有机器学习智能的非结构化数据分析使组织能够:
- 分析数字通信的合规性。 未能遵守法规可能会给公司造成数百万美元的费用,诉讼和业务损失。模式识别和电子邮件线程分析软件会搜索大量电子邮件和聊天数据,以查找潜在的不合规情况。最近的一个例子包括大众汽车公司的困境,他们可能会通过使用分析来监视可疑消息的通信,从而避免了巨额罚款和声誉损失。
- 在社交媒体上跟踪大量的客户对话。 文本分析和情感分析使分析师可以查看营销活动的正面和负面结果,甚至可以识别在线威胁。这种级别的分析是更为复杂的简单关键字搜索,它只能报告基本信息,例如海报在新广告系列中多久提及一次公司名称。新的分析还包括上下文:提及是正面还是负面?海报互相反应了吗?对高管公告的反应基调是什么?例如,汽车行业大量参与社会媒体的分析,因为购车者经常转向其他海报来评估他们的购车体验。分析师结合使用文本挖掘和情感分析来跟踪Twitter和Facebook上与汽车相关的用户帖子。
- 获得新的营销情报。 机器学习分析工具可快速处理大量文档,以分析客户行为。一家主要的杂志出版商对数十万篇文章进行了文本挖掘,并根据主要子主题的受欢迎程度分析了每个单独的出版物。然后,他们将分析扩展到所有内容属性,以查看哪些总体主题受到客户人口统计的关注最多。该分析涉及所有出版物中成千上万的内容,并且按细分交叉引用了热门主题结果。结果是进行了丰富的教育,使哪些主题最吸引不同的客户,以及哪些营销信息最能引起他们的共鸣。
*在电子数据展示中,数据科学家使用关键字搜索非结构化数据,并对所涉及的数据有一个合理的了解。 *
无论您的业务特点是什么,今天的目标都是挖掘业务价值,无论数据是结构化的还是非结构化的。两种类型的数据都可能具有巨大的价值,并且较新的工具可以聚合,查询,分析和利用所有数据类型,从而在整个公司数据中获得深入的业务洞察力。
网友评论