什么是数据驱动？

作者: 评价的非官方人 | 来源:发表于2018-12-20 12:09 被阅读0次

什么是数据驱动？

二种主要的数据构成：

实时/历史数据库和关系型数据库

实时数据库

实时数据库是数据库系统发展的一个分支，它适用于处理不断更新的快速变化的数据及具有时间限制的事务处理。实时数据库技术是实时系统和数据库技术相结合的产物。实时数据库最起初是基于先进控制和优化控制而出现的，对数据的实时性要求比较高，因而实时、高效、稳定是实时数据库最关键的指标。

早期实时数据库的概念即我们所说的内存数据库，其相当于数据中枢的作用，将厂级相互孤立的DCS数据有效整合起来，在厂级应用中某个DCS的数据可为其他DCS的工艺算法提供数据支持，其有效解决了数据孤岛问题，拓展了DCS的功能，因而，实时数据库在先进控制和优化控制中起到了尤为重要的作用。

但早期的内存数据库并不能有效的解决实时数据的细时间粒度压缩存储，工业模型对象数值属性高度分类抽象，大容量数据的高效实时检索及处理等关键问题。而实时数据库在数据通信、数据组织、数据存储、数据检索、数据访问、数据处理、数据展现等方面的专业化及产品化，为构建基于大容量实时历史数据之上的分析应用提供了便捷稳定的数据支撑，使应用系统可以从更高更深层次充分利用宝贵的生产实时历史数据。

目前，实时数据库已广泛应用于电力、石油石化、交通、冶金、军工、环保等行业，是构建工业生产调度监控系统、指挥系统，生产实时历史数据中心的不可缺少的基础软件。

关系数据库

关系数据库，是指采用了关系模型来组织数据的数据库。关系模型是在1970年由IBM首先提出，在之后的几十年中，关系模型的概念得到了充分的发展并逐渐成为数据库架构的主流模型。简单来说，关系模型指的就是二维表格模型，而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。关系型数据库有着以下特点：

容易理解：二维表结构是非常贴近逻辑世界的一个概念，关系模型相对网状、层次等其他模型来说更容易理解。

使用方便：通用的SQL语言使得操作关系型数据库非常方便，程序员甚至于数据管理员可以方便地在逻辑层面操作数据库，而完全不必理解其底层实现。

易于维护：丰富的完整性（实体完整性、参照完整性和用户定义的完整性）大大降低了数据冗余和数据不一致的概率。

目前，关系数据库广泛应用于各个行业，用于构筑管理信息系统，如ERP，MIS，EAM等重要系统，是构建管理信息系统，存储及处理关系数据的不可缺少基础软件。

两种数据库之间的一些差别：

数据的组织方式

实时数据库可以简单地理解为它是这样的数据库：由测点信息库、实时数据库、历史数据库三个数据库组成。

测点信息库含有一个测点基本信息字段的一张表，这个表以测点标签作为关键字，对应一条测点基本信息的记录包含一条测点的基本配置信息，如压缩偏差，例外偏差，测点描述等。用户可从此数据库中查询测点的基本信息。实时数据库是内存快照数据库，反映了生产实时数据的时间戳、数值、质量等秒级变化。用户可从此数据库中查询生产实时数据的实时数据值（值，时间戳，质量）。

历史数据库是含有一个以测点名称字段和时间字段为关键字的一张表，这张表的另外的一个重要的字段就是数值字段，用来存储测点的采集值，除了这些字段，还可以包含数据的状态，数据质量字段等。随着时间的变化，不断地将实时数据库中的实时数据进行压缩过滤，并更新磁盘历史数据文件中的表里的数据。用户可从此数据库中查询生产实时数据的历史样本值或历史插值数据。而对于关系数据库则是根据各个实体之间的关系来设计数据表的。

数据来源

针对不同的类型的企业，实时数据库的数据的来源也不尽相同。主要来源有DCS控制系统，数据采集系统（SCADA）,手工录入，关系数据库等。这些数据的主要特点就是都和生产直接相关，并且大多数的数据都是数值型数据，比如设备或介质的压力、温度、流量、位置、电压、电流、功率等。关系数据库的来源更加多样。除了记录数值数据外，也记录描述性的数据，如姓名家庭住址等信息。一般来说，实时数据库的数据来源一般是设备。而关系数据库的数据来源一般是来自于人。

系统稳定性

由于实时数据库记录的是和生产相关的数据，并且和时间相关，所以要求其必须能够长时间稳定运行，否则就会导致数据的丢失。目前一些实时数据库已经具有缓存数据的功能，当数据采集机器和实时数据库服务器之间通信出现故障时，可以把采集到的数据缓存到本地，当通信恢复正常后，把缓存的数据写入到实时数据库服务器中，极大地保证了数据的完整性。

而对于关系数据库来说，如果不是应用在关键业务，比如金融证券等，对稳定要求一般来说不是很高。

应用领域

过程控制系统是实时数据库系统最重要的应用领域之一.在生产装置运行过程中，实时数据库实时记录采集装置的运行数据，随时掌握装置的运行状况，并通过对生产过程的关键数据的监控和分析，对出现的问题及时处理，使生产的运行状态保持安全平稳,当生产状况发生变化时可以及时作出反映；通过对影响原材料用量的过程监视以及对水电汽的用量的监测分析，可以及时发现问题，特别对生产调度人员来说，可以及时地平衡物料供应，减少单耗，提高经济效益。而关系数据库的应用则广泛的多，在各行各业基本都可以见到。大多数应用在管理方面，比如管理信息系统（MIS），客户关系管理（CRM）等。

数据压缩

实时数据库因为存储的数据量非常大，比如要采集10000点的数据，每5秒采集一个数据，假设采集的都是32位浮点数，那么一天的数据量（仅数值属性不含时间属性）就是10000*（60/5）*60*24*4/1024=675000K，大约675M的数据。由此可见数据量的庞大，而且占用磁盘的空间大，对数据的访问速度也会降低。因此各个数据库厂家大都开发出自己的数据压缩算法，对数据进行压缩。常用的压缩算法可以分为三类：无损压缩，有损压缩，二级压缩。其中，无损压缩一般以通用压缩理论为基础，采取huffman等经典的压缩算法；而有损压缩则更多地考虑了工业实时数据的特征，而采取的一些特殊舍点算法；二级压缩技术，则是同时利用了这两种数据压缩技术。实时数据库的无损压缩以通用压缩理论为基础。目前比较著名的有损压缩算法,有常用的旋转门压缩算法，以及一些变通压缩算法（如在旋转门算法基础上改用二次均方差作为偏差比较，以提高数据还原精度），这些算法原理都比较简单。

关系型数据库则不会对数据进行压缩。

数据的访问方式

实时数据库一般有以下3种方式访问数据

1) 使用自己的API,这种方式效率最高也最简单。

2) 使用ODBC或者OLEDB,这种方式不大常用，主要是给那些刚刚接触实时数据库或者以前对关系型数据库了解的用户使用的。

3) 使用Opc方式访问数据。Opc是一种广泛使用的工业标准，虽然效率不高，但是目前很多的厂家都支持。

关系数据库访问数据的方式是通过结构化查询语言（SQL）来访问的。

一个数据驱动的组织会以一种及时的方式获取、处理和使用数据来创造效益，不断迭代并开发新产品，以及在数据中探索。有效地（effectively）使用数据为关键，数据驱动是实实在在可以为业务带来价值的科学。

数据驱动方法的意义在于，当我们对一个问题暂时不能用简单而准确的方法解决时，我们可以根据历史数据和关系型数据库，构造出近似的模型来逼近真实情况，这实际上是用计算量和数据量来换取研究时间。得到的模型虽然和真实情况有偏差但是足以指导实践。

举例一：

传感器作为物联网中一个从外界接收信息的载体，被誉为物联网、智能设备等的“心脏”。例如美国亚马逊推出的“Amazon

Go”超市，这是一种无需结账的新商店。店中装有利用机器学习和算法的传感器，不用排队便可自动结账。再如极视角，它通过视频识别用户是不是试穿了某一件衣服，是不是试戴了某一顶帽子，将零散的数据收集。

Amazon Go购物流程及相关技术设备

1、购物流程

作为一名顾客，在走进Amazon Go之前，你需要下载AmazonGoApp，并在注册登录账户之后，通过这款软件生成二维码，扫码进店。不用操心如何为他人买单，生成的每个二维码都可以对应多个人，这主要是为了应对家庭购物场景。

在购物环节，亚马逊通过“取货”动作判断你购买了哪些商品，为他人取货账单也会记到你的账户。另外，出于识别考虑，货架上的商品都需要被摆放整齐，亚马逊店内有专门的理货人员整理顾客放回的商品。

亚马逊无人便利店所使用的标签并不是常用的条形码或者RFID，而是一种独创的点状标签，这种类似盲文的标签可能更利于摄像头识别。

在选购好所需商品之后，支付不需要任何操作，仅需在走出店门后等待5-15分钟，即可获得账单，出现问题的商品可以点击退换。

2、识别环节

那么在顾客购物的过程中，亚马逊又是怎样判断顾客究竟购买了哪些商品呢？和购物环节相同，识别环节也分3步：

首先，在顾客进门时顶部摄像头识别顾客体态步态及热成像等生物特征，并将此作为生物ID和账户链接，和外界猜测不一样，出于隐私等方面的考虑，亚马逊并没有使用面部识别技术。

在顾客购物时，亚马逊主要通过货架上的摄像头进行手势识别，并通过多重感应器及顾客历史购物记录判断顾客所购商品。

在整个识别过程中，存在两种处理方法:

一种是从顾客进门起就进行全程跟踪；

另一种是在监测到顾客出现在货架间后，再进行主动跟踪。

相应的顾客离店的判断也有两种方式:

一种是全程追踪到顾客离开店面后进行账单结算；

一种是几分钟内货架间检测不到顾客动态后进行账单结算。

由于账单结算具有5-15分钟的延迟，我们更倾向于亚马逊使用第二种处理方式， 在识别精度可以满足要求的情况下，较低的成本是其胜出的关键。

3、店内相关技术设备

Amazon Go店内使用的设备主要有摄像头、麦克风、红外感应器、压力感应器和荷载感应器等，使用的技术和无人驾驶技术非常相似，包括计算机视觉、深度学习及感应器融合技术。

值得一提的是，Amazon Go店内拥有上百个摄像头，这些摄像头主要分四类：

摄像头设备

举例二：

LinkedIn 作为一家职业社交网站，通过人才招聘、广告投放、付费订阅等服务实现了盈利，这三项服务的背后实际上都有着数据分析的重要贡献。LinkedIn 利用数据分析为所有职场人员作出迅捷、高质、高效的决策，提供具有指导意义的洞察和可规模化的解决方案

。

一、助力：如何提升销售的效率？

LinkedIn是全球最大的职场社交平台，有海量的人才信息，比如某人某年某月在某公司做某岗位。有了这些信息以后，LinkedIn就能知道人才在企业之间的流动情况；通过信息整合，我们的团队做出来人才流动画板。比如一家企业从A公司招聘了80名员工，流失了18名；通过人才流动画板，企业间人力资源的流动情况就非常清晰了。

图2：人才流动画板

人才解决方案是LinkedIn B端业务的重要组成，以前销售人员去预约企业的管理层非常困难，无论是打电话还是email都经常碰壁。现在 LinkedIn的销售人员只需要在这个人才流动画板上搜索目标企业，就可以清晰获得对方的人才流动情况。销售把这张图发给目标客户的管理层，这样就很容易引起了对方的重视，预约成功率和签单比率大幅度上升。

二、优化：如何找出目标用户？

作为一个职场社交平台，大部分用户都是免费使用 LinkedIn；但对于那些有高级需求的人群，LinkedIn 推出了付费订阅服务。为了保持良好的用户体验，LinkedIn 并没有给所有人都发推广邮件；那么留给我们的问题来了，如何找到这部分有需求的人群？

图4：LinkedIn 三大类用户数据

LinkedIn有三大类用户数据，用户个体数据、用户行为数据和用户网络数据。用户个体数据主要是用户的一些基础信息，用户行为数据是在用户在LinkedIn产品上的使用情况；事实表明，用户行为数据往往比用户个体数据更加具有预测性。用户网络数据是一个social network的概念，同一个网络里面的人，共性更加强烈。

图5：建立用户倾向模型筛选目标人群

在这三大类数据的基础上，分析部门建立了“用户倾向模型”，筛选出有需求的目标人群。业务部门只给这些筛选出来的目标人群推送“高级订阅功能”营销邮件，在不破坏用户体验的基础上，取得了非常好的营收效果.

图6：用户倾向模型的效果

上图最右侧的灰色柱状图代表业务部门实际获取的新付费用户，其中10%和36%来源于用户个体数据和用户行为数据筛选的结果，剩下54%新付费用户均来自于用户倾向模型的作用。通过数据分析，用户倾向模型使得业务部门的业绩提升了100%以上，我认为这是最能直接体现数据分析价值的地方。

三、创新：如何提升订单成功率？

不只是全球最大的职场社交平台，LinkedIn也是全球第二大 SaaS（企业级服务）企业，面向B端客户提供人才解决方案、精准广告等服务。区别于B2C业务，B2B业务的一个显著点就是决策权集中在管理层，如何找到大客户的核心决策者一直是B2B企业销售的重点。

我认为LinkedIn在这方面具有先发优势，因为LinkedIn上聚集了海量的职场人员信息，我们创新的“大客户兴趣指数”就是一个很好的例子。

图7：大客户兴趣指数模型

大客户兴趣指数，用来衡量企业级大客户对于LinkedIn产品和服务的兴趣程度。我将它拆解成两个子模型：决策者模型和产品偏好模型。决策者模型用来评估用户是企业决策者的可能系数，产品偏好模型用来分析用户在LinkedIn上产品的使用程度，两者结合起来就是“大客户兴趣指数”。

以往销售人员要同时跟进很多客户，而且销售并不清晰哪些用户是决策者，哪些用户对我们产品感兴趣。有了这个“大客户兴趣指数”以后，销售人员就可以进行优先级排序。哪些客户成单的可能性高？那些客户值得我们多花些时间？销售都心中有数。

图8：大客户兴趣指数的效果

我将大客户兴趣指数分为低、中、高三种；大客户兴趣指数为“高”的用户订单成功率高达42%，是指数为“低”的客户订单成功率的两倍。对于一家B2B企业，或者To B业务很大比重的企业，精准找到核心用户、提升订单成功率至关重要。

数据驱动并不是一步到位的，从数据到洞察，它是一个不断进化的过程。对于所有的分析团队来讲，数据驱动都绕不过这四步：数据获取、数据挖掘分析、商业预测以及商业决策。其中，数据获取是基础，商业决策的价值量最高。

数据驱动不能没有数据分析工具，我结合自己多年分析经历谈了自己的看法。一个好的数据分析产品一定要简单易用，让数据工作从大到小，实现从冰山到冰棍的变化。同时，几秒钟就能拿到数据、大幅提升数据工作效率也是一款优秀数据产品的所必须具备的。

举例三：

对于数据的使用，卡特彼勒一直走在行业的前列。通过Cat®（卡特）智能，操作者们可以轻松获得机器位置、可用性和停机时间等各类设备相关数据，基于数据更可以快速判断设备使用及人员作业情况，从而更出色、明智地做出运营决策。

作业现场和业务的需求

Cat®（卡特）智能巧妙运用各种技术与服务来提高您的作业现场效率。机械设备采用各类先进技术，为您提供丰富的数据，让您比过去更好更深入地了解自己的设备和运转状况。　Cat®（卡特）智能能从四个关键方面帮您监视、管理并促进运营状况，从而更好地掌控作业现场。

设备管理 - 为您控制运营成本

Cat®（卡特）智能设备管理解决方案(EMSolutions)帮您延长正常运行时间，降低运营成本。与Cat®（卡特）代理商合作时，您可以监控设备的位置、燃油燃烧和利用率以及机器健康程度和维护问题（例如工作小时数、油液污染情况等）。

位于伊利诺伊州 Morton 的 Cat®（卡特）零配件中心面积185,806平方米，是卡特彼勒全球零配件供应网络的一个重要中心，每天配送22,000个零件。Cat 零部件供应总监 Barb Hodel 说，“我们希望优化生产率，把对正常运营的干扰降到最低。系统错误或者员工问题等无法预料的情况会导致无法按时发出订单。所以，如果工厂出现意外情况，若是监管者能够快速反应，那将带来截然不同的结果。”

生产效率 - 为您达成高效作业

Cat®（卡特）智能 “生产效率”帮您监控生产和管理作业现场的效率，能更轻松地达到您对生产率的要求。

安全保障 - 为您提供无忧视野

Cat®（卡特）智能 “安全保障”通过增强作业现场的安全意识来保护人员和设备的安全，从而赋予您所需的安全视野。诸如轮胎监测和非车载安全报告等增强“安全保障”选项能为作业现场的每个人提供宝贵的学习和指导机会。

绿色发展 - 为您减少环境影响

Cat®（卡特）智能 “绿色发展”有助于您减少环境影响，简化合规报告。通过监控燃油燃烧和管理资源消耗情况，您不仅能提升作业现场的效率，还能尽职尽责地保护好运营环境的生态完整性。

什么是数据驱动？

什么是数据驱动？

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读