十年信息路之源头数据采集篇

作者: appletractor | 来源:发表于2016-11-19 21:43 被阅读206次

十年信息路之源头数据采集篇
iOS视频开发（二）：视频H264硬编码
有没有更好的信息收集软件
CMSampleBuffer 分析
数据采集
标准lims系统有哪些核心功能模块
Metal应用--捕捉摄像头&即刻渲染
什么是带NFC的数据采集器？可以做什么？
GPUImage Filter链(1)前言
网络爬虫详解：原理、工作流程及爬取策略（一）

“为有源头活水来”，一提到“源头”，很多人不禁会想到这句诗。我不知道中石化的源头数据中的“源头”是否来自此处，但是感觉其含义应该差不多。

以前一个个单独的数据库就像一口口独立挖掘的水井，各自独立，互不连通。有了源头数据库之后就相当于把各口井底层的水源给打通了，从此，所有的井共用一处水源，便于统一管理、加深、拓宽或检测水质等。

一次采集，全局共享。要达到这个目的，必须要保证数据齐全性与准确性。齐全性需要各专业数据全部录入，而准确性则需要各相关部门进行审核确定。为这些入库的数据发一个质量过关的通行证，予以认可。这样，用户才可以放心大胆地使用。

上世纪末，在当时的历史条件下，中石化根据业务发展的需要，以较为前瞻的眼光，结合各油田专业的实际情况，设计、部署、实施了八大数据库，涵盖了中石化上游企业所需各专业。其中包括勘探、开发、钻井、录井等专业，并且每一个数据库都对应地开发了一套应用系统，也就是所谓的八大应用系统。

这八大应用系统及其对应的数据库，的确满足了当时各专业数据集中的需要，让每个专业数据都有了各自的归属，生产施工等各类数据开始集中存储起来。

后来随着信息化的发展，随着大平台、大格局、大思维意识的逐渐发展，八大数据库各自为政的弊端也逐渐地凸显出来了。有一些技术数据，需要在各大数据库中分别各自录入。由于数据出处不同、操作人员误操作、数据库格式原因，会造成同一个数据在不同的数据库中都有相应的副本，有的还不尽一致，造成资源、存储的浪费，很容易造成使用人员的混淆。

于是，如何整合八大数据库，整合上游企业各大数据库就成了一个上日程的问题。以胜利油田的开发数据库为模型，通过扩展与完善，慢慢地形成了中石化源头数据库。源头数据库基于八大数据库，却高于八大数据库。它一方面把八大数据库整合到一起，另一方面在此基础上进行了扩展与完善——源头数据库最后是十二大专业。

03
中石化从“十一五”开始，从2004年在胜利油田开展了源头数据采集试点，整合形成了“一套规范、一套软件、一套制度”的推广模板；之后陆续在上游企业分批推广实施源头数据采集系统，历经近十年抗战，终于在所有油田企业推广完毕。让中石化上游企业的数据管理使用水平提高了一个层次。

2012年分公司开始推广实施源头数据采集系统。系统的推广部署过程是一个较为艰难的过程，它需要很多岗位改变自己的工作习惯和资料收集方式。系统经过了大家的抵触、不理解到慢慢的接受与配合的过程。最后，终于把源头数据采集这一套系统的框架搭起来了。

推广过程中印象最深刻的就是，我和项目组一行三人随车到分公司所辖区块，安装部署录井地质采集系统和实时传输系统的情景。

2013年正值分公司增储上产的关键阶段，在钻井多，队伍多而分散，30多个录井队分散在吉辽多个地区。我们几个人和司机都没怎么去过那些井场，只能线确定大体位置后，根据站立的钻井架子的远近来判断方位，饿了就啃口岩芯，渴了就喝口原油，困了就听听隆隆钻机声。有时候遇到没有接触过的录井仪型号，还要返回大本营修改优化程序。就这样，断断续续经过三四个月的奔波，终于把在东北工区所有的录井队，全部给安装部署并培训完毕录井专业的地质采集和实时传输系统。

当看到一口口井的录井仪数据实时传送回分公司服务器，并在软件系统中展示出来的时候，我们都有一种小小的成就感。

04
源头数据采集的初衷是想在每一个数据产生的“源头”把数据整理入库，希望数据采集的足够齐全，没有遗漏，让每一个数据“颗粒归仓”。

每一个数据，一条条记录就像一箱箱各色的马赛克，通过各种组合，在工匠的手中变成一幅幅美丽的图案。就像是经过各种算法把数据以统计，分析，对比的方式查询展示出来。

通过源头采集齐全的数据，就相当于从外界置备各式各样的做菜素材，鸡鸭鱼肉，调料等，随时待命。至于你能利用这些材料做出什么美味的菜系，川菜，粤菜还是鲁菜，就取决于你的水平和客人的口味了。

当数据全了之后，维度多了之后，属性多了之后，相互融合之后，就可以产生很多意想不到的效果，可以发挥大数据的作用，从中发现很多以前发现不了的端倪。

《数据之巅》这本书中介绍，美国现代社会的发展是基于人口普查。书里从美国建国之初历次人口普查运动讲起，讲到美国通过细化的人口普查得到了包括人口数量、职业，各个地方农作物品种、产量以及水利工程修建与否，福特汽车的安全问题等数据，甚至预测了美国的总统选举等等。系统梳理了美国数据文化的形成，阐述了其数据治国之道。

同样地，如果我们能够转变思维角度，把石油行业各专业所有的数据全部入库，充分挖掘各类数据之间的关系，以后再应用的时候就会方便很多。

05
做菜

如果把源头数据从采集到应用的整个过程当作做一桌子菜的话，那么：
当我们（信息部门）把一桌子美味菜肴（各专业数据都齐全、准确地入库）做好，邀请大家（业务相关部门）品尝，我想绝大多数人不会拒绝。但是我如果邀请大家一起来做菜（共同参与源头数据的审核监督），很多人会会摇摇头，转身走开。

如果再往前推一步，邀请大家一起种菜：播种、施肥、松土等，最后通过自己的劳动，把丰盛的饭菜做出来，端到饭桌上（邀请相关部门参与源头数据采集、审核、监督、应用整个过程）。我估计很多人会受不了这个漫长的过程，直接说：还不如煮一包方便面来的痛快（直接管施工单位要电子表格）。

其实这就是源头数据采集与应用存在的一个最大问题。很多数据的使用与监管部门没有真正参与到“做菜”整个过程当中来。

很多数据应用部门有一条自己获取数据的途径，并且内容与格式可以自行要求，因而对通过采集上报的数据的准确性不太关注；很多部门对数据尤其数据长期保存的重要性认识不到，只重视专业成果数据，油气显示之类的动态数据，对一些静态数据不太重视。

还有一些人员习惯于通过电子表格之类的初级统计工具，他们习惯于跟厂里或者施工队伍进行一对一直接的数据交换，而不习惯或者不相信存放在第三方的源头数据库里面的数据——仍然坚信手动抄的或者纸质打印的才是权威的。

就像现在通过网购进行购物一样，在第三方托管条件已经非常成熟的条件下，竟然还有不少人习惯于用两个人面对面，一手交钱一手交货的模式。

我们部署实施了源头数据库，就相当于建立了这样一个第三方的权威平台，业务施工队伍和采油气厂把数据保存在这个信誉比较好的平台上，其他的业务部门在使用的时候可以直接调用即可。同时这个权威平台不仅需要信息部门的呐喊，更需要业务部门的参与，通过大家的努力把这个平台的公信力和权威性提高上来。

另外，源头数据采集的初衷是想让源头上报上来的数据原汁原味，没有修改与变化。但在实际操作过程中，各级管理部门都要对数据进行层层审核与校正，让最后上报入库的数据发生了些许微妙的变化。

06
如果把源头数据比作一片水域的话，那以前把独立的数据库比作“孤岛”的说法我认为是不恰当的，应该是独立而不连通的水湾。如果有一天能用一种方法把这些孤立的水源连接起来，那就成了源头数据的雏形。

要想成为标准可用的源头数据，必须对整片水域进行规划修整，使其能够满足各方面的要求。

源头数据库的难，不在于整处水源工程的挖掘与建造，而在于建完之后如何让水源搜集人员能用各种型号不同，大小各异的水桶把自己守护处的泉水定时、按期、保质保量地运到总水源处。

07
搭台唱戏

很多部门把采集的责任全部压在了信息部门的头上，他们认为这就是你们信息部门的责任，因为采集软件的安装、使用与培训都是你们与各个施工队伍联系的。

在我看来，源头采集数据系统包括很多应用系统建设使用过程就像搭台唱戏一样。信息搭台，专业唱戏，信息部门负责把这个平台搭建好，业务部门负责直接或者间接地在上面唱戏。戏演得好不好，水平其实更多取决于业务部门。如果在“唱戏”过程中发现“台子”有问题，大家可以坐在一起想办法进行完善解决，而不是一脚踢开，撂挑子走人——不跟你玩了。

EPBP平台

当我写这篇文章的时候，中石化EPBP平台正在如火如荼地推进中。在我看来，EPBP相当于重新修建了更高级更完善的一处水源——更深，更阔，蓄水能力更强。它与源头数据水源不是冲突矛盾的，而是以一种恰当的方式连接并连通着，交流着。完成以后，EPBP库将成为各油田新的最底层的数据库，给其他各种应用系统提供支持，提供规范达标的数据水源。

EPBP的中文意思是“勘探开发业务协同平台”。其中我最欣赏的两个字是“协同”。在我看来，“协同”不仅仅是底层数据的共享共用，更多的是一种工作模式，工作关系的协同。随着EPBP的推广应用与持续、深入推进，必将促进我们协作理念和关系的迭代升级。

为了有效顺利推动EPBP的开展与使用，我们必须坚定不移、毫不动摇地坚持下去。

而这，也为我将来谱写另一个华丽的篇章留下了丰富多彩的素材。让我们拭目以待吧！

十年信息路之源头数据采集篇
01 “为有源头活水来”，一提到“源头”，很多人不禁会想到这句诗。我不知道中石化的源头数据中的“源头”是否来自此处...
iOS视频开发（二）：视频H264硬编码
前言上一篇《iOS视频开发（一）：视频采集》我们已经介绍了如何采集iOS摄像头的视频数据，采集到的原始视频数据量...
有没有更好的信息收集软件
企业信息采集软件企业名录、电话号码、大数据信息搜索采集系统企业公司店铺行业电话销售号码名录数据信息搜索采集软件
CMSampleBuffer 分析
CMSampleBuffer的使用通过摄像头采样的视频数据。通过mic采集的音频信息。 AVAssetWrit...
数据采集
互联网上呈现的内容都是数据信息，所以互联网数据采集又称为信息采集。做数据采集一般用爬虫，但要避开屏蔽，一般衡量数据...
标准lims系统有哪些核心功能模块
模块7-数据采集数据自动智能采集系统是试验自动化控制设备与试验数据管理之间的信息纽带。平台开发的数据采集组件提供...
Metal应用--捕捉摄像头&即刻渲染
视频采集视频采集流程如下: 使用AVFoundation调用摄像头进行采集采集完成后的数据存放在CMSampl...
什么是带NFC的数据采集器？可以做什么？
什么是带NFC的数据采集器？可以做什么？普通的数据采集器很少带有NFC模块，只能用扫描头进项数据采集器。带NFC...
GPUImage Filter链(1)前言
摄像头采集的过程如果把要从采集的数据中拿到视频数据呢？所以，CMSampleBufferRef和CVPixel...
网络爬虫详解：原理、工作流程及爬取策略（一）
大数据时代，关于网络信息数据的采集需求越来越多，如果单纯靠人力进行信息采集，整个过程不仅低效繁琐，搜索成本、错误率...