1.1 组织结构是数据组织方式的基础,数据却要求更加开放
当我们在探讨数据结构的时候,其一般有两种含义,一种是广义的含义,表示数据的组织结构或者组织方式,即各种数据以什么样的方式组合在一起构筑成企业的数据地图;另外一种是狭义的含义,是指在数据记录时数据的结构,即一条数据自身的结构化问题。为了区别,通常把广义的含义称为“数据组织结构”,把狭义的含义称为“数据结构”。
在组织中,每个人考虑问题的方式都是根据自己所处的位置、自身的利益以及自己所处团体的位置来决定的。不在其位不谋其政,坐在什么样的位置上,就会以什么样的视角看问题。当然这本身没有什么错误,按照经济学的理论,如果组织中每个人都从自身利益出发来维护好自身利益或者自身所在团体的利益,只要这个组织的结构设计合理,那么这个组织的效益可以最大化。
数据由人来管理并由人来使用,必然与人在组织中的地位有关系。人在组织中处在什么样的位置,就会有什么样的思路和视野,也就会有什么样的想法,这些都必然会体现在其对数据的管理和应用上。对数据的管理和应用,在组织中处在不同位置和职位的人会有不同的视角,而这是由其职位和个人视野决定的。高层会有高层的视角,基层会有基层的视角。虽然处在不同的层级,管理目标不同,但一定要做到管理目标的协同。高层希望加强源头数据的质量,而基层会觉得很麻烦,带来工作量的增加,就产生了管理目标的不协同。高层希望提高数据的即时性,而基层没有合适的智能化或者自动化数据采集手段,这也是管理目标的不协同。为了让管理目标协同,对于第一种提高数据质量的问题,可以通过增加岗位、提供激励等方式让管理目标产生协同;对于第二种,可以通过增加自动化数据采集设备或者更加方便的数据记录方法来解决,从而实现管理目标的协同。
企业大数据的源头数据是企业各个基层员工采集的,其组织方式必然由组织的结构方式决定,而企业的组织管理是层级上报,所以在数据向上传输的过程中,必然也是按照组织结构的传输方式向上汇报的,这让数据的组织结构方式等同于组织的结构方式。
组织结构决定数据结构的方式往往会限制数据能量的发挥,这是因为数据在汇总、加工和分析的过程中需要整合其他部门所产生的数据,从而更全面地了解数据背后的“真相。”比如,人力资源部门在分析人效产出的时候,需要结合销售部门的数据、市场采集的外部数据、外部人才市场环境的数据,而这些数据如果在部门之间不开放,数据完全按照组织结构的方式来组织必然会产生割裂,导致在数据进行加工整理、汇总分析的时候产生偏差,或者不知道数据变化背后的动因是什么,数据价值挖掘也失去了应有的效果。
部门间数据的相互开放是一个需要逐步探索的过程,根据需要,可以从授权的角度来进行管理。当A部门需要数据的时候,提请上级经理申请获得B部门的数据开放接口,能够直接查询相关的数据。这样当A部门对自己的数据进行分析解读的时候,就能够结合B部门的数据,获得数据的全貌,从而让数据分析更加深刻,价值挖掘更加精准。当A部门对B部门的数据需求比较多时,可以采用固定账号授权的模式来进行,为了保证数据的安全,可以通过服务器端的数据传输记录来监控数据的使用。这些都需要在使用过程中逐步探索。
数据的跨部门开放打破了原有的数据按照组织结构的模式来传递数据,从而让数据可以得到更好的应用。企业可以通过成立数据中心来整合公司所有的数据资源,并在数据开放上起到类似“数据统筹局”这样的角色,完成数据内部的开放,同时对数据又有非常好的控制,对数据的使用进行监控,避免数据的滥用和泄漏。比如,人力资源部门要对公司的某些优秀人才进行评价,在制定优秀人才培养计划时需要对该人才进行全面的考察,就需要根据各方面的数据信息来查看该员工是否满足纳入重点培养人才计划的标准,此时就可以通过数据中心来调取各种行为数据、考勤数据、薪酬绩效数据、工作业绩数据、发明创造成果数据、产品技术数据、客户反馈数据、跨部门评估数据等,这些数据给人力资源部门对个人评估提供了完善的数据源。
1.2 数据结构的合理性决定了数据的易用性
数据是对资源和资源活动的记录,每条数据记录都有个结构的问题,即数据结构。数据结构体现了数据自身组织信息的方式和方法。结构设计的合理性决定了数据在未来的易用性,包括查询的方便性、关联的紧密性以及对数据进行存储、处理、挖掘的速度和效率。虽然现在数据的存储量已经非常大,数据的传输速度也非常快,但合理的数据结构会让未来的使用效率得到大幅度的提高。
比如,员工信息表,如果在数据结构上设计合理,就可以直接使用Excel的透视表功能来进行统计汇总,只需要几秒钟就可以得到想要的统计汇总数据。但是如果表的结构不合理,不仅仅有合并的单元格,还有各种各样的不规则数据,透视表功能无法使用,只能使用函数和计算功能,这样就加大了工作量。
资源活动记录类的数据更加强调数据结构的合理性,因为每时每刻都在发生着活动,对这些活动记录的数据,未来还会继续使用,比如,客户订单流水记录,如果结构设计不合理,在未来需要重构,需要将历史的数据导入新的数据表,又是一个繁琐复杂的工作。
数据结构的规划需要专业的数据部门提供标准,结合部门实际需求,做到具有一定的前瞻性。如果数据量很大,越是标准化的数据结构,通过程序来自动处理越加方便。这就需要在数据采集端就将表格的样式标准化、数据字段的名称标准化、数据记录和度量的方式标准化。目前国家在推动大数据治理与统筹,未来将数据标准记录下来将是一个非常重要的工作。在企业内部,企业构建大数据时,也需要将数据的标准化工作放到前面,甚至成立专门的数据标准化管理委员会来处理这个问题。
1.3 源头数据质量决定企业数据大厦的大小
一棵大树能够抵御多少级的大风,除了与树根的大小紧密相关以外,更重要的是根系深厚和庞大的程度;一个大厦能够垒多高,就要看其地基有多稳固。企业数据大厦的大小和品质也直接由地基—源头数据质量和数量决定。
我们把单个数据叫作企业的神经元,数据的多少与神经元的分布状况直接相关。数据采集后的传输系统构成这个大树的根系,根系有多大,决定着这棵树能够长多高。企业经营和管理活动非常广泛,未来的企业大数据需要将几乎所有的资源和资源活动都记录下来,所以需要构建一个无死角的庞大的神经系统。这是企业数据大厦的理想状态,目前大多数企业都还在基于企业的信息系统来完成数据的采集、传输、存储和汇总工作,而大数据要求的是DT技术,是对IT技术的升级和发展。企业需要逐步在原有的IT系统基础上,构建完善的DT系统,以扩展这个“根系”,从而为未来企业构建更加强大的数据大厦,以提高企业的竞争实力。
理论上讲,企业所有的资源和资源活动都需要被记录,从而形成完整的企业大数据,这里的资源和资源活动包括了企业自身拥有的资源和企业所接触到的资源。企业自身拥有的资源包括企业的人、财、物和信息等,而企业所接触到的资源包括与企业所处环境以及与企业发生交互的资源,企业边界上的资源以及边界上资源的活动。
企业需要循序渐进地构建自己的大数据体系,首先完成对内部资源以及资源活动数据的治理与统筹,然后再对边界上的数据进行治理和统筹,最后再逐步延伸到外部数据的采集。不需要好高骛远,如果企业连内部的数据都没有采集完整和利用起来,那么对边界和外部数据的采集一定更加不精准。因为自己内部数据的价值密度才是最高的,边界上的数据其次,外部数据更次之。
1.4 数据的数据:元数据
所谓的元数据(MetaData)就是描述数据的数据。当我们在描述一个员工的时候,会从其姓名、性别、年龄、民族、血型、出生日期、身高、体重、身体健康状况等维度出发进行描述,这个字段名称集可以称之为“元数据”,它们是用来描述“员工”这个数据的。元数据直接体现着数据的信息量和数据的完整性,也体现着数据采集的方法、数据的精准度等。
元数据的变化将直接影响着数据集的变化,如果在员工基本信息这个数据集中增加一个元数据(字段),就需要对数据集做出重大的调整,对整体数据集进行完善,比如,在员工基本信息数据集中增加一个元数据“入职日期”,就需要对全体员工的数据进行更新;如果要删除一个元数据,也要对整个数据集进行更新。对于员工基本信息表这样的静态数据来说,更新工作不算复杂,但对于动态数据集,数据记录有时效性,在初期设计不合理,后期将很难对数据进行更新,至少如果在历史数据上增加新的字段将非常困难。所以,企业在建立数据库和数据表的时候需要慎重考虑数据长周期的可用性,谨慎设计,尽可能做到完整,以避免在后期再进行变动。
对元数据的构建已经形成了一定的标准和规范,也有国际组织对常用的数据集设定了一些参考性的标准供公众使用。企业在构建企业数据集时,如果能够参考这些标准,一方面,自身采集数据可以做到具有系统性,另一方面,在未来数据开放或者获取到外部数据之后,雷同的数据可以对其进行对比分析,提高了数据的重复可用性。
企业需要根据自身的情况使其数据库标准化,最好成立数据标准化规范小组,让企业的管理者参与到数据标准的制定中,从而满足企业各个层级管理的需求。在这个过程中,需要建设好数据规范的文档,以备后期查询使用,并对版本做好标识,标记版本的日期以及适用周期。
1.5 静态数据是结果数据
所谓静态数据,就是对事物的静态描述,包括对事物构成要素和事物属性的描述。比如,描述员工,有员工基本信息表,这些数据是静态的,大多数情况下不会随时发生变化,包括姓名、性别、出生日期、血型、民族、籍贯(出生地)等,当然,过程中可能会有部分更新,但其更新在一定的周期内不会太频繁地发生。
静态数据的更新需要通过替换完成,比如,员工的最高学历,随着员工自己的进修,提升了最高学历,在更新的时候就需要替换原来的学历记录,变成最新的学历名称。这是静态数据的特点。
因为静态数据的更新是替换式的,会破坏原有数据信息,容易导致数据信息的丢失,如果用错误的数据替换了原有正确的数据,往往导致数据不可恢复。一方面,企业可以通过定期备份数据来保证历史数据的可恢复,另一方面,每次对数据库进行更新,都需要留下详细的更新日志,这样可以在出现不可恢复的情况时,通过日志来对数据进行恢复操作。
静态数据体现着事物当时的状态。不同时间状态下的静态数据之间的变化体现着事物的发展变化,变化的两个静态数据之间的差异体现着事物的状态变化,是结果性的。所以,也可以把静态数据称为结果数据。
描述一家企业,有企业的规模、职工人数等。今年的数据和去年的数据之差,即为该企业从去年到今年的发展成果。这个数据之差体现着该企业在这一年所付出努力的结果。
1.6 动态数据是行为数据
动态数据是记录事物动作的数据,每个数据集记录相同或者相似的动作。比如,员工工资表数据,该数据集记录给每个员工发放工资这个动作。企业每个月发工资,如果有100人,就需要发放工资100次,所以就有100条这样的数据记录。
动态数据记录事物的行为。原则上来讲,动态数据集都会有时间标签,否则信息就是不完整的。时间标签标注该活动是在什么时间发生的,比如,销售订单数据集,每一条记录就是一次交易活动,可能会是不同的业务员在不同的时间向不同的客户销售了不同的产品,但这些活动的基本属性是一致的,都包含了业务员名称、产品名称、产品数量、产品价格、客户名称、交易时间、付款时间、送货地址、送货时间、发票信息等内容。
企业的经营和管理活动都是可以利用动态数据集来记录的,随着企业经营和管理活动的增多,可以不断地增加动态数据集。在公司经营和管理活动变化不大的情况下,动态数据集的个数,以及其结构也是相对稳定的。比如,员工工资表数据集,只要每次给员工发工资,就记录到这个数据表中,然后在数据集的尾部不断增加数字即可,其表中原有的数据字段保持相对稳定,这样结构化的数据可以成为高质量的单维数据表。销售订单数据表、采购订单数据表、生产订单数据表、材料(或设备、部件、产品等)进出库登记表、员工考勤记录表、库存盘点登记表、固定资产登记表等,这些都是一个企业典型的动态数据表。只要企业的经营性质、业务范围、经营模式没有发生巨大变化,这些表的结构基本是不会变化的,所以企业在第一次设计表的时候,就要尽可能地设计好数据表的结构,让记录行为的动态数据逐步累积,最终形成可追溯企业到底做了什么事情的大数据库。
保留动态数据对以后分析企业整体的发展轨迹、寻找企业发展规律,以及总结过去的决策失误,为企业以后少走弯路、找到发展规律是至关重要的。有些企业在发展过程中,没有保留下历史数据,甚至连历史的销售订单数据都没有保留,实在是一件非常遗憾的事情。即使现在的数据采集、存储、传输技术非常发达、使用成本非常低廉,仍然有些企业不肯投资,这不是投入成本的问题,是思维意识的问题。
当然,有些企业这些动态数据集都有,而且也会定期做些基于这些数据的分析报告,但有个很大问题在于管理。很多数据都存留在相关岗位或者管理者的电脑里,如果这个员工离职或者转岗后没有保留相关数据给下一任,或者因为职位长期空缺,会导致这些数据的丢失。当数据存在于个人的电脑中,没有一个集中的安全的保存地点,如公司的服务器、企业云服务器等,那么这些数据就有随时可能丢失的风险。这是潜在的管理风险,需要企业高度重视。当企业发展到一定的规模之后,就应该将这些数据全部保存到公司的云服务器中。
为什么这里比较强调云服务器呢?因为服务器运行对环境条件的要求比较苛刻,数据的价值又很高,需要更严格保管并定期备份保存。一般的云服务器在数据安全、服务器安全、数据保护和备份方面做得比单个企业投资的服务器更安全。将服务器放在公司里,一个保安人员出现问题就有可能导致公司价值连城的数据丢失或者损毁,而将数据保存到云服务器中,这些风险就会小很多。
1.7 行为数据与结果数据构建事物数字化因果逻辑
静态数据描述事物的状态,状态变化代表了经营和管理活动带来的结果,而动态数据描述了企业各种资源的活动情况,属于行为数据。
对一段时间的行为数据统计汇总,可以用来描述这段时间内的行为“结果”。比如对一周内的销售订单数据进行统计汇总,得到的数据为结果数据,标识了这段时间内订单的变化总量。这部分数据也可以叫作结果数据。结果数据与企业账户中余额的变化、仓库中库存量的变化等相关数据是统一的,可以通过统计各方数据来进行多方检验,只要出现差异,就意味着某个数据的记录出现错误。
在利用数据和对数据进行深度挖掘的时候,是在试图探寻行为和结果之间的关系,从而找寻出事物发生和发展的规律,这种关系可以是因果关系,也可以是相关关系,甚至只是关联关系。企业可以通过改变行为,从而得到预期的结果。
有些行为数据直接影响着事物的结果状态,这样就可以比较容易地将某些数据之间的关系判定为因果关系,比如,企业生产订单数据,因为原材料消耗、能源消耗、人工消耗才生产出了产品,这就是投入与产出之间的直接的因果关系。
但有些因果关系不会这么直接。比如,广告投入与销售额提升之间的关系,虽然可以将两者看做是一个因果关系,却无法直接通过数学的加减乘除去计算通过广告投入可以提升多少销售额,如果真的能够直接计算得出,那么企业肯定会知道广告该不该投放了。
我们都知道不同创意的广告带来的销售拉动效果是不同的,不同时间段的广告效果也会不同,不同的媒体渠道发布的广告的效果也会不同。虽然有些企业试图建立广告投入和销售额之间的关系,但销售额还会受到其他因素的影响,比如,产品覆盖率、终端服务的质量、采购的便捷性、物流配送的快慢以及竞争对手的广告影响等,这些都会影响销售额,从而导致广告投入和产出的关系变得复杂—虽然可以直接定义两者之间为因果关系,但如果想直接量化这个因果关系,却是不可能的。企业可以通过构建复杂的数学模型,把各种影响广告效果的因素都纳入到这个数学模型中,通过不断地探索和实践,找寻到近似的量化的关系来预测短时期内投放广告会有多少的产出。
这里强调了短期预测,因为长期的预测是有难度的。广告效果随着广告次数的增加,边际效应递减。所以,即使企业长期研究,预测的结果与实际结果之间仍然还会有较大的误差。正因为如此,无论是广告公司还是投资广告的企业,都在努力研究投入与产出之间的关系,但是都还没有得到量化广告投入与销售产出之间关系的金钥匙。
1.8 通过数据构建事物之间的共生或者关联关系
数据分析本身无法告诉两个事物之间是不是因果关系,只能靠自己的判断。严格意义上讲,即使是像投入广告就会获得提升销售额一样,也不能算是直接的因果关系,因为消费者看到了广告,影响了消费者的喜好,激发了消费者的购买欲望,购买欲望驱动消费者购买的过程是非常长的。但回归到整体的时候,广告的确推动了某些消费者对品牌的认知,也肯定起到了拉动消费者购买的作用。
数据分析能够告诉我们的是两个事物结果之间是共生关系或者联动关系。当一个事物发生时,另外一个事物同时发生,就可以说两者之间存在着一种联系。
全文摘自《企业数据化管理变革-数据治理与统筹方案》赵兴峰著
该文转载已取得作者认可
版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业数据化管理变革》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】
下期内容更实战!
网友评论