大数据的抽取与集成

作者: 皮皮杂谈 | 来源:发表于2019-08-18 10:05 被阅读0次

大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。

要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合之后采用统一定义的结构来存储这些数据。

在数据集成和提取时,需要对数据进行清洗,保证数据质量及可信性。同时还要特别注意大数据时代数据模式和数据的关系,大数据时代的数据往往是先有数据再有模式,并且模式是在不断的动态演化之中的。

数据抽取和集成技术并不是一项全新的技术,在传统数据库领域此问题就已经得到了比较成熟的研究。

随着新的数据源的涌现,数据集成方法也在不断的发展之中。从数据集成模型来看,现有的数据抽取与集成方式可以大致分为4种类型:基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,以及基于搜索引擎的方法。

相关文章

网友评论

    本文标题:大数据的抽取与集成

    本文链接:https://www.haomeiwen.com/subject/swfrsctx.html