今天继续带大家学习大数据。今天主要介绍大数据价值链的数据获取部分。希望大家持续学习,每天关注,我会连续更新文章,让大家系统学习和认识大数据。
阶段II:数据获取
在大数据价值链中,数据获取阶段的任务是以数字形式将信息聚合,以待存储和分析处理。数据获取过程可分为三个步骤:数据采集、数据传输和数据预处理,如图所示。数据传输和数据预处理没有严格的次序,预处理可以在数据传输之前或之后。
一、 数据采集
数据采集是指从真实世界对象中获得原始数据的过程。不准确的数据采集将影响后续的数据处理并最终得到无效的结果。数据采集方法的选择不但要依赖于数据源的物理性质,还要考虑数据分析的目标。随后将介绍3种常用的数据采集方法:传感器、日志文件和web爬虫。
1.传感器
传感器常用于测量物理环境变量并将其转化为可读的数字信号以待处理。传感器包括声音、振动、化学、电流、天气、压力、温度和距离等类型。通过有线或无线网络,信息被传送到数据采集点。有线传感器网络通过网线收集传感器的信息,这种方式适用于传感器易于部署和管理的场景。
另一方面,无线传感器网络利用无线网络作为信息传输的载体,适合于没有能量或通信的基础设施的场合。WSNs通常由大量微小传感器节点构成,微小传感器由电池供电,被部署在应用制定的地点收集感知数据。当节点部署完成后,基站将发布网络配置/管理或收集命令,来自不同节点的感知数据将被汇集并转发到基站以待处理。
基于传感器的数据采集系统被认为是一个信息物理系统。实际上,在科学实验中许多用于收集实验数据的专用仪器(如磁分光计、射电望远镜等),可以看作特殊的传感器。从这个角度,实验数据采集系统同样是一个信息物理系统。
2.日志文件
日志是广泛使用的数据采集方法之一,由数据源系统产生,以特殊的文件格式记录系统的活动。几乎所有在数字设备上运行的应用使用日志文件非常有用,例如web服务器通常要在访问日志文件中记录网站用户的点击、键盘输入、访问行为以及其他属性。有三种类型的web服务器日志文件格式用于捕获用户在网站上的活动:通用日志文件格式(NCSA)、扩展日志文件格式(W3C)和IIS日志文件格式(Microsoft)。所有日志文件格式都是ASCII文本格式。数据库也可以用来替代文本文件存储日志信息,以提高海量日志仓库的查询效率。其他基于日志文件的数据采集包括金融应用的股票记帐和网络监控的性能测量及流量管理。
和物理传感器相比,日志文件可以看作是“软件传感器”,许多用户实现的数据采集软件属于这类。
3.Web爬虫
爬虫是指为搜索引擎下载并存储网页的程序。爬虫顺序地访问初始队列中的一组URLs,并为所有URLs分配一个优先级。爬虫从队列中获得具有一定优先级的URL,下载该网页,随后解析网页中包含的所有URLs并添加这些新的URLs到队列中。这个过程一直重复,直到爬虫程序停止为止。Web爬虫是网站应用如搜索引擎和web缓存的主要数据采集方式。数据采集过程由选择策略、重访策略、礼貌策略以及并行策略决定。选择策略决定哪个网页将被访问;重访策略决定何时检查网页是否更新;礼貌策略防止过度访问网站;并行策略则用于协调分布的爬虫程序。传统的web爬虫应用已较为成熟,提出了不少有效的方案。随着更丰富更先进的web应用的出现,一些新的爬虫机制已被用于爬取富互联网应用的数据。除了上述方法,还有许多和领域相关的数据采集方法和系统。
根据数据采集方式的不同,数据采集方法又可以大致分为以下两类:
•基于拉(pull-based)的方法,数据由集中式或分布式的代理主动收集。
•基于推(push-based)的方法,数据由源或第三方推向数据汇聚点。
对上述三种数据采集方法进行了比较,日志文件是最简单的数据采集方法,但是只能收集相对一小部分结构化数据;web爬虫是最灵活的数据采集方法,可以获得巨量的结构复杂的数据。
二、数据传输
原始数据采集后必须将其传送到数据存储基础设施如数据中心等待进一步处理。数据传输过程可以分为两个阶段,IP骨干网传输和数据中心传输,如图所示。
1. IP骨干网传输
IP骨干网提供高容量主干线路将大数据从数据源传递到数据中心。传输速率和容量取决于物理媒体和链路管理方法。
•物理媒体:通常由许多光缆合并在一起增加容量,并需要存在多条路径已确保路径失效时能进行重路由。
•链路管理:决定信号如何在物理媒体上传输。过去20年间IPoverWDM技术得到了深入地研究。波分复用技术(WDM)是在单根光纤上复用多个不同波长的光载波信号。为了解决电信号带宽的瓶颈问题,正交频分复用OFDM被认为是未来的高速光传输技术的候选者。OFDM允许单个子载波的频谱重叠,能够构建具有更灵活的数据率、资源有效使用的光网络。
目前IP骨干网部署了每信道40Gbps带宽的光传输系统,100Gbps的接口也已经商用。不久的将来Tbps级别的传输也将实现。
由于在现有的互联网骨干网中增强网络协议功能较为困难,必须遵循现有的互联网协议传输大数据。然而,对于区域或私有IP骨干网,对于特定的应用,一些专用的传输方法能够获得更好的性能。
2. 数据中心传输
数据传递到数据中心后,将在数据中心内部进行存储位置的调整和其他处理,这个过程称为数据中心传输,涉及到数据中心体系架构和传输协议。
•数据中心体系架构:
数据中心由多个装备了若干服务器的机架构成,服务器通过数据中心内部网络连接。许多数据中心基于权威的2层或3层fat-tree结构的商用交换机构建。一些其他的拓扑也用于构建更加高效的数据中心网络。由于电子交换机的固有缺陷,在增加通信带宽的同时减少能量消耗非常困难。数据中心网络中的光互联技术能够提供高吞吐量、低延迟和减少能量消耗,被认为是有前途的解决方案。目前,光技术在数据中心仅用于点对点链路,这些链路基于低成本的多模光纤并连接交换机,带宽只能达到10Gbps。数据中心的光互联(交换机以光的形式交换)[68]能够提供Tbps级别的带宽,并能提高能量效率。许多光互联机制已被应用于数据中心网络。一些方案建议增加光电路升级现有数据中心网络,而另一些方案则认为需完全替换现有交换机。
•传输协议:
TCP和UDP是数据传输最重要的两种协议,但是它们的性能在传输大量的数据时并不令人满意。许多研究致力于提高这两种协议的性能。一些增强TCP功能的方法目标是提高链路吞吐率并对长短不一的混合TCP流提供可预测的小延迟。例如,DCTCP利用显示拥塞通知对端主机提供多比特反馈;Vamanan等提出了用于数据中心网络的deadline感知的TCP协议,用于分配带宽,确保在软实时限制下完成网络传输。UDP协议适用于传输大量数据,但是缺乏拥塞控制。因此高带宽的UDP应用必须自己实现拥塞控制机制,这是一个困难的任务并会导致风险。Kholer等在类UDP的基础协议上设计添加了一个可拥塞控制的不可靠传输协议,该协议类似于TCP但是没有可靠传输和累积确认机制。
三、数据预处理
由于数据源的多样性,数据集由于干扰、冗余和一致性因素的影响具有不同的质量。从需求的角度,一些数据分析工具和应用对数据质量有着严格的要求。因此在大数据系统中需要数据预处理技术提高数据的质量。讨论三种主要的数据预处理技术。
1. 数据集成
数据集成技术在逻辑上和物理上把来自不同数据源的数据进行集中,为用户提供一个统一的视图。数据集成在传统的数据库研究中是一个成熟的研究领域,如数据仓库和数据联合方法。数据仓库又称为ETL,由3个步骤构成:提取、变换和装载。
•提取:连接源系统并选择和收集必要的数据用于随后的分析处理。
•变换:通过一系列的规则将提取的数据转换为标准格式。
•装载:将提取并变换后的数据导入目标存储基础设施。
数据联合则创建一个虚拟的数据库,从分离的数据源查询并合并数据。虚拟数据库并不包含数据本身,而是存储了真实数据及其存储位置的信息或元数据。
然而,这两种方法并不能满足流式和搜索应用对高性能的需求,因此这些应用的数据高度动态,并且需要实时处理。一般地,数据集成技术最好能与流处理引擎或搜索引擎集成在一起。
2.数据清洗
数据清洗是指在数据集中发现不准确、不完整或不合理数据,并对这些数据进行修补或移除以提高数据质量的过程。一个通用的数据清洗框架由5个步骤构成:定义错误类型,搜索并标识错误实例,改正错误,文档记录错误实例和错误类型,修改数据录入程序以减少未来的错误。
此外,格式检查、完整性检查、合理性检查和极限检查也在数据清洗过程中完成。数据清洗对保持数据的一致和更新起着重要的作用,因此被用于如银行、保险、零售、电信和交通的多个行业。在电子商务领域,尽管大多数数据通过电子方式收集,但仍存在数据质量问题。影响数据质量的因素包括软件错误、定制错误和系统配置错误等。
数据清洗对随后的数据分析非常重要,因为它能提高数据分析的准确性。但是数据清洗依赖复杂的关系模型,会带来额外的计算和延迟开销,必须在数据清洗模型的复杂性和分析结果的准确性之间进行平衡。
3.冗余消除
数据冗余是指数据的重复或过剩,这是许多数据集的常见问题。数据冗余无疑会增加传输开销,浪费存储空间,导致数据不一致,降低可靠性。因此许多研究提出了数据冗余减少机制,例如冗余检测和数据压缩。这些方法能够用于不同的数据集和应用环境,提升性能,但同时也带来一定风险。
由广泛部署的摄像头收集的图像和视频数据存在大量的数据冗余。在视频监控数据中,大量的图像和视频数据存在着时间、空间和统计上的冗余。视频压缩技术被用于减少视频数据的冗余,许多重要的标准(如MPEG-2,MPEG-4,H,263,H,264/AVC)已被应用以减少存储和传输的负担。对于普遍的数据传输和存储,数据去重技术是专用的数据压缩技术,用于消除重复数据的副本。在存储去重过程中,一个唯一的数据块或数据段将分配一个标识并存储,该标识会加入一个标识列表。当去重过程继续时,一个标识已存在于标识列表中的新数据块将被认为是冗余的块。该数据块将被一个指向已存储数据块指针的引用替代。
去重技术能够显著地减少存储空间,对大数据存储系统具有非常重要的作用。除了前面提到的数据预处理方法,还有一些对特定数据对象进行预处理的技术,如特征提取技术,在多媒体搜索和DNS分析中起着重要的作用。这些数据对象通常具有高维特征矢量。
数据变形技术则通常用于处理分布式数据源产生的异构数据,对处理商业数据非常有用。然而,没有一个统一的数据预处理过程和单一的技术能够用于多样化的数据集,必须考虑数据集的特性、需要解决的问题、性能需求和其他因素选择合适的数据预处理方案。
今天介绍了大数据价值链的数据获取部分,后面会继续带你认识不一样的大数据。
如果您想长期获取科技信息的解读,记得关注我,我会每天更新,谢谢。同时如果您有什么意见和建议,欢迎评论。
网友评论