如果你问市场营销人员:他们是否喜欢将他们的数据比喻为建筑物或水体之类的东西,会显得有点奇怪。对于市场营销从业者而言,两者之间的差异不仅仅是所选比喻对象的不同。本文介绍了这两种海量数据存储的特点。
数据仓库
数字营销人员的工作越来越需要处理大数据,这些数量惊人的原始信息来自社交媒体,客服中心,线上行为跟踪或其他来源等。对于这种海量数据而言,最常见的两种存储方式是「数据仓库」和「数据湖泊」。
虽然,市场营销人员显然需要IT部门帮助做出数据存储的决策,但了解所使用的数据存储有助于市场营销者了解系统的功能和成本。
数据仓库通常是数据进入数据库时就构建好的数据存储空间,数据通常来自操作系统——交易行为,客户档案,人力资源,客户关系管理系统,企业资源规划系统等。在存储到仓库之前,数据通常会被仔细筛选和处理,如果某种信息具有法律约束力且需要可追踪的话,便会被数据库优先选择。
存储性能提供商CondusivTechnologis 的首席执行官 James D'Arezzo表示,仓库可以存储非结构化数据。即使这种数据不是为数据库专门构建的,它也可以作为文件列表输入。但是,就像它们用命名时被比喻的物体的物理结构那样,数据仓库主要用于存储那些在输入时就经过适当排序、过滤和打包的数据。
数据湖泊
顾名思义,数据湖比仓库更没有固定形状。它们存储任意来源输入的各种数据,包括视频来源、音频流、面部识别数据、社交媒体帖子等等。
「数据湖泊」有时会动用人工智能来标注流入的数据,如命名数据。但数据的格式化、处理和管理通常发生在为某种特定需求做导出的时候,而非在存储之前进行。「数据仓库」通常更容易区分它们接收的数据类型,而「数据湖泊」几乎可以接受所有数据。
虽然「数据湖泊」不一定能更快地输入或处理数据,但D'Arezzo告诉说,他们的数据管理员不必去创建接收数据的结构和准入标准。他认为,对于营销人员来说,「数据湖泊」意味着数据源的深度和广度都比「数据仓库」更大。
为什么这对营销人员很重要
数据管理系统可以同时使用「仓库」和「湖泊」这两种数据库,也可以将重点放在其中一种类型上。D'Arezzo建议营销人员了解他们存储数据的类型、可用的分析工具,与可处理数据的系统集群、处理成本、所有的性能问题以及数据存储空间是否占用公司的物理空间、共享云、公司私有云,或者某种组合中。
就成本而言,为数据进入「数据仓库」存储之前的准备工作,可能既昂贵又耗时。而且按照过去的传统,「仓库」已将大量数据存储在便宜但速度较慢的磁带上,相比之下,「数据湖泊」通常使用大量的硬盘。
D'Arezzo还指出,有时候,营销人员在存储数据之前实际上并不知道他们想要拿这些数据做什么,因此这会有局限性或难以为未知目的做好准备。他说,面部识别数据、社交媒体的帖子或来自物联网设备的数据,可归入优先储存、再事后决定的这一类别。
「数据仓库」供应商包括IBM,Google,Microsoft,Teradata,SAP,而几个「数据湖泊」供应商是AWS,Microsoft,Informatica和Teradata。
来源:Martech Today
作者:Barry Levine
翻译:Sibyl
网友评论