美文网首页Python数据采集与爬虫大数据
分析现3种数据采集方式优缺点

分析现3种数据采集方式优缺点

作者: 博为101大数据平台 | 来源:发表于2017-11-16 16:29 被阅读105次

    随着信息化时代的来临,大数据越来越被重视,数据采集的挑战变的尤为突出。

    许多大型企业和政府机构在信息化过程中结合自身业务搭建起了各种各样的软件系统,其中积累了大量的行业和客户数据,他们急需将这些数据汇聚起来,形成自己的大数据平台,做数据挖掘和分析,精准地服务他们的客户。

    当前数据采集的挑战如下

    1、 数据源多种多样

    2、 数据量大,更新快

    3、 如何保证数据采集的可靠性的性能a

    4、 如何避免重复数据

    5、 如何保证数据的质量。

    今天就和大家讨论几种针对各种软件系统的数据采集的方式方法。重点关注它们的实现过程、各自的优缺点。

    3、软件接口对接方式

    实现过程如下:

    1)协调多方软件厂商工程师

    2)确定方案,编码

    3)编码结束,进入测试、调试阶段

    4)交付使用

    接口对接方式的数据可靠性较高;同时数据是通过接口实时传递过来,完全满足了大数据平台对于实时性的要求。

    是接口对接方式需花费大量人力和时间协调各个软件厂商做数据接口对接;同时其扩展性不高,比如:由于业务需要各软件系统开发出新的业务模块,其和大数据平台之间的数据接口也需要做相应的修改和变动,甚至要推翻以前的所有数据接口编码,工作量很大且耗时长。

    2、开放数据库方式

    一般情况,来自不同公司的系统,不太会开放自己的数据库给对方连接,因为这样会有安全性的问题。为实现数据的采集和汇聚,开放数据库是最直接的一种方式。

    两个系统分别有各自的数据库,同类型的数据库之间是比较方便的:

    1)如果两个数据库在同一个服务器上,只要用户名设置的没有问题,就可以直接相互访问,需要在from后将其数据库名称及表的架构所有者带上即可。

    select * from DATABASE1.dbo.table1

    2)如果两个系统的数据库不在一个服务器上,那么建议采用链接服务器的形式来处理,或者使用openset和opendatasource的方式,这个需要对数据库的访问进行外围服务器的配置。

    不同类型的数据库之间的连接就比较麻烦,需要做很多设置才能生效,这里不做详细说明。

    开放数据库方式可以直接从目标数据库中获取需要的数据,准确性很高,是最直接、便捷的一种方式;实时性也有保证;

    开放数据库方式需要协调各个软件厂商开放数据库,其难度很大;一个平台如果要同时连接很多个软件厂商的数据库,并且实时都在获取数据,这对平台本身的性能也是个巨大的挑战。

    (重点)

    1、底层数据直接采集方式

    通过获取软件系统的底层数据交换、软件客户端和数据库之间的网络流量包,进行包流量分析采集到应用数据,同时还可以利用仿真技术模拟客户端请求,实现数据的自动写入。

    实现过程如下:使用数据采集引擎对目标软件的内部数据交换(网络流量、内存)进行侦听,再把其中所需的数据分析出来,经过一系列处理和封装,保证数据的唯一性和准确性,并且输出结构化数据。经过相应配置,实现数据采集的自动化。

    基于底层数据交换的数据直接采集方式的技术特点如下:

    1)独立抓取,不需要软件厂家配合;

    2)实时数据采集;

    3)兼容Windows平台的几乎所有软件(C/S,B/S);作为数据挖掘,大数据分析的基础;

    4)自动建立数据间关联;

    5)配置简单、实施周期短;

    6)支持自动导入历史数据。

    目前,由于数据采集融合技术的缺失,往往依靠各软件原厂商研发数据接口才能实现数据互通,不仅需要投入大量的时间、精力与资金,还可能因为系统开发团队解体、源代码丢失等原因出现的死局,导致了数据采集融合实现难度极大。

    在如此急迫的需求环境下基于底层数据交换的数据直接采集方式应运而生,从各式各样的软件系统中开采数据,源源不断获取所需的精准、实时的数据,自动建立数据关联,输出利用率极高的结构化数据,让数据有序、安全、可控的流动到所需要的企业和用户当中,让不同系统的数据源实现联动流通,为客户提供决策支持、提高运营效率、产生经济价值。

    —   以上   —

    相关文章

      网友评论

        本文标题:分析现3种数据采集方式优缺点

        本文链接:https://www.haomeiwen.com/subject/zdzlvxtx.html