一:大数据的概念
时代的发展变迁,单从互联网的角度来讲,从最初的IBM巨型机到后来的单机时代,在到后来家家户户都拥有了PC机,笔者就是从PC机那个年代过来的,那个年代的代表作品有QQ,类似于腾讯和网易这样的公司都是从PC机那个年代发展起来的,差不多2013年前后,微信问世了,象征着进入移动互联网时代,说得通俗点就是人人都拥有一部手机,身在何处,都可以访问互联网,所以叫移动互联网,以及马上要普及的5G技术,进入万物互联的时代。随着时代的发展,数据存在的形式发生了变化,现在貌似只要是一个现代人,每天都会产生大量的数据,打开微信,后端服务器就会记录相关的日志信息,只是对于用户来说,并不可见。
把刚才的话总结一下,就是现在的数据很'大',称之为大数据,根据其产生,使用,价值,大数据的特征为:大,全,细,时,下面逐一介绍一下。
1.1:大数据之'大'
这里的大并不一定指数据量很大,类似于波音飞机,航天飞船这类交通工具,可能飞行一次,就会产生十几TB的数据量,但其实这样的数据量也仅限于分析此次航行的一些信息,非常有局限性,无法发挥出大数据的优势,在举一个例子,散遍全国各地的地震探测器,可能每天上报的数据量并不是特别大,但是范围非常广,可以做很多数据相关分析,作相应的预测工作。所以大数据的大,要看具体的场景。
1.2:大数据之'全'
象征性举个小例子,在上海这个城市发放了100W张问卷调查,内容为消费水平相关的内容,最终得出中国全体人民的消费水平,另外一种是发放了1W张问卷调查,但是范围均匀分布在中国各地。其实很明显第一种方式得出的结果是不准确的,这说明大数据想要发挥出价值,数据源的采集应该是全面的,这样更容易反应客观的实时,因为大数据的价值本身就是消除不确定性,这个后面会详述。
1.3:大数据之'细'
精细化分析,精细化运营,精细化这个词在互联网常常能听到,其实这也是体现了大数据另外一个特征,那就是细,在满足了大数据的大和全以后,还要满足细,举个小例子,还是拿刚才的问卷调查来说,如果只采集了跟性别相关的消费水平,那么我现在想要分析不同年龄段的人,他们的消费水平,是不是就感觉数据不够用了,所以采集的数据应该要满足细,即性别,年龄,学历,身高,婚姻情况,子女情况,工作性质等等,尽可能的详尽,这样可以方便后期进行多维度的数据分析,使大数据的价值发挥至极致。
1.4:大数据之'时'
数据是有时效性的,其实这点很好理解,看一年前的新闻联播,没多大的意义。在电商领域,每次大促期间发放优惠券等,都是需要实时的查看数据,实时的作为数据分析,来实时的调整优惠券发放,如果数据是'冷'数据,那么就变得没有意义了,得益于现在针对流式数据处理有非常先进的框架,实现大数据的时效性变得简单了许多。
二:大数据的本质
何为大数据思维,笔者讲一下亲身的经历,公司有一项业务,就是推广的公司的会员购物卡,我们又是跟超市合作的,每个超市都设有我们自己的地推人员,公司为了让每个地推人员都极大的发挥价值去尽可能的推广会员购物卡,我们想针对每个地推人员设立kpi考核机制,每个人一天要推广10张会员购物卡,不然工资会打折扣,地推本是一项线下业务,无法与线上联动,我们针对每个员工都设立了推广号和二维码,这样就完成了线下联动线上,过了一段时间,我们通过采集数据,进行数据分析发现几个问题:
1:一般在早高峰和晚高峰推广的效率会高很多。
2:地推人员每天推广的数量两极分化特别严重,并且好的那一端,极少超过10张。
3:我们通过分时段分析,发现每天完成推广指标的地推人员,所在的超市都是一些客流量比较大的大型商超,并且早上基本就已经完成推广了,下午基本没业绩了。
其实从上面的分析结果可以很明显看出弊端,就是不同位置的超市kpi考核机制应该不一样,并且设立kpi考核时应该要遵循弹性机制,多劳多得,并且人员可以动态分配,在早晚高峰投入更多的人员,减少地推人员的工作空档期。通过分析,笔者后来就将该分析报告告知上层,通过调整以后,会员购物卡的推广效率比之前高了2~3倍。
通过笔者自身对大数据的运用,只是想说明大数据的本质:消除一切不确定性。就比如刚才的事例,我们应该如何给地推人员设立kpi,如何最大化利用地推人员等,其实这些事情,在不借助数据分析结果的前提下,那都是一拍脑门决定的事情。有了数据的指导,我们能够更加科学化的实施方案,当然也能够最大的获取回报。
三:数据驱动
3.1:数据驱动的理念
其实每位从事大数据相关的人员,应该都做过用数据去驱动做的事情,只是没有很好的总结归纳数据驱动到底是什么?
- 数据驱动决策
如果不借助数据来前提下,一个企业做相应的商业决策,往往就靠自己的经验去执行的,当然这样有可能能成功,有可能会失败,有或者说,能不能更加成功一点,这都是没法去衡量的。数据驱动即通过采集/传输/存储/加工/分析/结果化去指导决策,比如产品优化,运营优化, 营销分析, 商业决策等。并且我们可以通过A/B测试的方式来衡量此次用数据驱动的优化是否换来了正相关,用这种方式可以很好的实现迭代优化,最终达到最优的结果。 - 数据驱动产品智能化
智能化,即具备学习能力,相比较于决策来讲,智能化认为干预较少,其实数据驱动决策,最终还是需要人根据数据分析的结果来做决定的,只不过更加的科学化,那么数据驱动产品智能化,其实就是数据基础+模型算法,然后给到对应的产品,让产品形成反馈的一个过程。类似的例子也有很多,比如:广告精准投放,精准营销,用户画像,个性化推荐等等,不同的领域可以根据实际的场景,产出不同智能化的产品。
3.2:数据驱动面临的问题
目前存在部分企业面临的数据驱动的问题如下:
1:没有建设良好的数据中台,让数据从采集/传输/存储/加工/分析/结果化这一条流式链路走不通,或者走的不好,导致数据很难被使用起来。
2:对于数据的理解度不够,只有一些比较宽泛的宏观的数据指标,无法多维度,精细化的分析,从而也就无法让数据更加的驱动决策和产品智能化。
3:无法打破数据孤岛,其实这个问题再国内还是很常见的,特别是一些大的集团公司,下面有多个子业务线,或者多个分公司,他们经营都是独立的,数据都是分开的,那么数据就存在孤岛,没有良好的整合。这一点就违背了,大数据之'全'。
3.3:理想的数据驱动-'流'
其实,最近这两年大数据领域都被数据中台这个概念炒火了,根据实际的发展来看,确实各行各业都可以套用数据中台这个模式来实现数据驱动-'流',这个流指的是:数据源采集-》数据传输(实时/离线)-》数据建模/存储-》数据处理-》数据分析挖掘-》数据可视化/反馈。而要实现数据驱动的流式化,根据目前的最佳实践,确实需要搭建大数据基础平台-》数据仓库-》数据应用三层,下图是阿里的数据中台,可以参考一下:
其实做的事情可以大概抽象一下如下图:
数据驱动-'流'.png
四:大数据时代到来的条件
4.1:数据采集能力的提升
- 流量数据采集:现在不管是PC页面,还是移动APP,都是可以实现前端,后端,SDK埋点方式来实现流量数据的采集,相关的技术还是比较成熟的。
- 结构化数据采集:结构化的数据一般来源于关系型的数据,比如mysql,oracle等,这些数据可以通过大数据的一些框架,实现导入到大数据体系当中来。
- 线下/实体化数据采集
类似于共享单车,一些体感设备等,可以通过传感器生成数据和上报数据。
4.2:数据处理能力的提升
其实大数据这个词很早就提出来了,但局限于当时数据处理能力的落后,没有办法落地。其实Google就是一家将分布式计算落地的公司,非常的伟大,有了分布式计算,横式扩展结点,接近无限的扩展计算能力,才让大数据的处理得以实现,目前代表框架有:hadoop,spark,storm,flink等。
4.3:数据意识的提升
新型互联网公司的异军突起,让传统的公司看到公司未来的发展一定是以数据为导向的,越来越多的人意识到数据的重要性。而数据驱动能否在一家公司落地,很好的执行,跟公司高层是有很大关系的,其决定了成本的投入,人才的投入,公司战略发展的目标等。
参考书籍:《数据驱动:从方法到实践》
网友评论