大数据培训一定要知道的知识点:由于数据源的多样性,数据集由于干扰、冗余和一致性因素的影响具有不同的质量。从需求的角度,一些数据分析工具和应用对数据质量有着严格的要求。因此在大数据系统中需要数据预处理技术提高数据的质量。科多大数据和大家来讨论三种主要的数据预处理技术。
1、数据集成(Dataintegration)
数据集成技术在逻辑上和物理上把来自不同数据源的数据进行集中,为用户提供一个统一的视图。数据集成在传统的数据库研究中是一个成熟的研究领域,如数据仓库(datawarehouse)和数据联合(datafederation)方法。数据仓库又称为ETL,由3个步骤构成:提取、变换和装载。
•提取:连接源系统并选择和收集必要的数据用于随后的分析处理。
•变换:通过一系列的规则将提取的数据转换为标准格式。
•装载:将提取并变换后的数据导入目标存储基础设施。
数据联合则创建一个虚拟的数据库,从分离的数据源查询并合并数据。虚拟数据库并不包含数据本身,而是存储了真实数据及其存储位置的信息或元数据。
然而,这两种方法并不能满足流式和搜索应用对高性能的需求,因此这些应用的数据高度动态,并且需要实时处理。一般地,数据集成技术最好能与流处理引擎或搜索引擎集成在一起。
2、数据清洗(Datacleansing)
数据清洗是指在数据集中发现不准确、不完整或不合理数据,并对这些数据进行修补或移除以提高数据质量的过程。一个通用的数据清洗框架由5个步骤构成:定义错误类型,搜索并标识错误实例,改正错误,文档记录错误实例和错误类型,修改数据录入程序以减少未来的错误。
此外,格式检查、完整性检查、合理性检查和极限检查也在数据清洗过程中完成。数据清洗对保持数据的一致和更新起着重要的作用,因此被用于如银行、保险、零售、电信和交通的多个行业。
在电子商务领域,尽管大多数数据通过电子方式收集,但仍存在数据质量问题。影响数据质量的因素包括软件错误、定制错误和系统配置错误等。Kohavi等讨论了通过检测爬虫和定期执行客户和帐户的重复数据删除(de-duping),对电子商务数据进行清洗。
在RFID领域,文献研究了对RFID数据的清洗。RFID技术用于许多应用,如库存检查和目标跟踪等。然而原始的RFID数据质量较低并包含许多由于物理设备的限制和不同类型环境噪声导致的异常信息。Zhao等在中提出了一个概率模型解决移动环境中的数据丢失问题。Khoussainova等在中设计了一个能根据应用定义的全局完整性约束自动修正输入数据错误的系统。
文献则实现了一个框架BIO-AJAX,用于对生物数据进行标准化。在该框架的辅助下,生物数据中的错误和副本可以消除,数据挖掘技术能够更高效地运行。
数据清洗对随后的数据分析非常重要,因为它能提高数据分析的准确性。但是数据清洗依赖复杂的关系模型,会带来额外的计算和延迟开销,必须在数据清洗模型的复杂性和分析结果的准确性之间进行平衡。
3、冗余消除(Redundancyelimination)
数据冗余是指数据的重复或过剩,这是许多数据集的常见问题。数据冗余无疑会增加传输开销,浪费存储空间,导致数据不一致,降低可靠性。因此许多研究提出了数据冗余减少机制,例如冗余检测和数据压缩。这些方法能够用于不同的数据集和应用环境,提升性能,但同时也带来一定风险。例如,数据压缩方法在进行数据压缩和解压缩时带来了额外的计算负担,因此需要在冗余减少带来的好处和增加的负担之间进行折中。
由广泛部署的摄像头收集的图像和视频数据存在大量的数据冗余。在视频监控数据中,大量的图像和视频数据存在着时间、空间和统计上的冗余。视频压缩技术被用于减少视频数据的冗余,许多重要的标准(如MPEG-2,MPEG-4,H.263,H.264/AVC)已被应用以减少存储和传输的负担。Tsai等在中研究了通过视频传感器网络进行智能视频监控的视频压缩技术。通过发现场景中背景和前景目标相联系的情境冗余,他们提出了一种新的冗余减少方法。
对于普遍的数据传输和存储,数据去重(datadeduplication)技术是专用的数据压缩技术,用于消除重复数据的副本。在存储去重过程中,一个唯一的数据块或数据段将分配一个标识并存储,该标识会加入一个标识列表。当去重过程继续时,一个标识已存在于标识列表中的新数据块将被认为是冗余的块。该数据块将被一个指向已存储数据块指针的引用替代。通过这种方式,任何给定的数据块只有一个实例存在。去重技术能够显著地减少存储空间,对大数据存储系统具有非常重要的作用。
除了前面提到的数据预处理方法,还有一些对特定数据对象进行预处理的技术,如特征提取技术,在多媒体搜索和DNS分析中起着重要的作用。这些数据对象通常具有高维特征矢量。数据变形技术则通常用于处理分布式数据源产生的异构数据,对处理商业数据非常有用。Gunter在文献中提出了MapLan,对瑞士国家银行的调查信息进行影射和变形。Wang等在中提出了一种在分布式存储系统中异构感知的数据重生成机制,在异构链路上传递最少的数据以保持数据的完整性。
然而,没有一个统一的数据预处理过程和单一的技术能够用于多样化的数据集,大家在处理具体问题时,一定要考虑数据集的特性、需要解决的问题、性能需求和其他因素选择合适的数据预处理方案。大数据培训资料关注科多大数据获取更多。
网友评论