一、前言
1、大数据业务搭建[3]
在这个大数据时代,一个公司大数据业务搭建的过程大致如下:
首先,是数据基础和需求,这个公司得是一个能接触到大量数据的公司。
第二,是大数据平台的搭建以及运维。由大数据开发工程师完成,需要了解ETL、hadoop、spark、kafka、hive、hbase等技术
第三,平台搭建好了,探索数据分析挖掘的应用。
2、数据服务
时常被问到数据分析、挖掘能够为企业带来什么价值?企业已经有海量数据了,数据分析师、挖掘师能够给企业提供哪些数据服务?大数据是怎样辅助决策的呢?
这是一个笼统而大方向的问题。面临大规模存储的数据,可以先从以下角度考虑:
- 改变传统模式,创建从无到有,数据辅助决策
- 解放机械生产力
- 指标衡量
- 挖掘未知信息
二、数据分析挖掘可以带来怎样的价值呢?
1、改变传统模式,创建从无到有,数据辅助决策
(1)谷歌对H1N1的预测
2009年出现了一种新的流感病毒(H1N1)短短几周内迅速传播,全球的公共卫生机构都在担心一场致命的流行病即将来袭。
模式 | 描述 |
---|---|
传统模式 | 医生会在发现新型流感病例时告知疾控中心,但是由于人们可能患病多日受不了了才去医院,同时这个信息传回疾控中心也需要时间,因此通告新型流感病例时往往会有一两周的延迟。对于飞速传播的疾病,信息滞后一两周将是致命的。 |
大数据模式 | 谷歌的工程师在《自然》杂志发表了一篇引人注目的论文,它令公共卫生官员和计算机科学家们感到震惊。文中解释了谷歌为什么可以预测冬季流感的传播,不仅可以预测全美范围的传播,还可以具体到特定的地区和州。 |
谷歌如何通过大数据实现冬季流感的传播预测的呢?
谷歌通过观察人们在网上的搜索记录来完成这个预测的。
谷歌保存了多年来所有的搜索记录,把5000万条美国人最频繁的检索词条和美国疾控中心2003年至2008年间季节性流感传播时期的数据进行了比较,关注特定检索词条的使用频率与流感在时间和空间上的联系。谷歌为了处理这些词条,总共处理了4.5亿个不同的数学模型,再将得出的预测与2007,2008年的实际流感病例进行对比后,发现45条检索词条与某一特定模型的组合与官方数据相关性高达97%。和疾控中心一样,他们能判断出流感是从哪里传播出来的,而且判断非常及时,不会像疾控中心那样要在流感爆发一两周后才可以做到。
所以在2009年H1N1爆发时,与习惯性滞后的官方数据相比,谷歌成为一个更有效、更及时的指示标,公共卫生机构获得了非常有价值的数据信息。
(2)汽车修理预测
UPS国际快递公司从2000年就使用预测性分析来监测自己全美6万辆规模的车队,这样就能进行防御性的修理。因为车在路上抛锚的损失非常大,需要再派一辆车,会造成延误和再装载的负担,并消耗大量的人力物力。
模式 | 描述 |
---|---|
传统模式 | UPS每两三年就会对车辆的零件进行定时更换(但这种方法不太有效,因为有的零件并没有什么毛病就被换掉了) |
大数据模式 | 通过安装传感器,监测车辆各个部位,使用预测性分析方式,UPS每年可以节省几百万美元 |
(3)棒球运动
球探如何找到明星球员?
模式 | 描述 |
---|---|
传统模式 | 长的不错,女朋友漂亮,击打动作有力,击打声很大,有很大气场 |
大数据模式 | 电脑程序和数学模型分析比赛来选择球员 |
电影《点球成金》依据现实改编,讲述运动家如何通过统计数据和数学建模的方式分析数据挖掘上垒率高的潜在明星,并获得成功的故事。
2014巴西世界杯,德国队再享冠军荣光,美国媒体评论称“大数据”堪称德国队的“第十二人”。
大数据对球员跑动、传球等数据的捕捉和分析,教练能够评估每场比赛的主要状况和每个球员的特点,并以“数字和事实”来优化备战方案,提升球队的成绩。
仅仅依靠球员天赋和教练经验的时代已经渐行渐远,而针对每个球员的个性化解决方案,正让传统的足球比赛翻开新的一页。
(4)莫里导航图
莫里是一位海军军官,由于一次意外腿部残疾,美国海军把他安排在办公室。
当莫里年轻的时候,曾对船只在水上绕弯不走直线感到不解,当他向船长问及这个问题,他们回答说走熟悉的路线比冒险的路线要好很多。但实际上那些熟悉的路线也并不是安全的。
模式 | 描述 |
---|---|
传统模式 | 经验口口相传,年轻航海家每到一个港口都会向老船长学习经验,例如洋流、风、潮汐等信息,走熟悉的那条航线 |
大数据模式 | 莫里清点办公室库存资料,整理海军上校们的航海日志,创造航海标准表格并要求美国所有海军在海上使用,返航后提交表格,同时定期向海里投放洋流瓶,获取洋流信息。最后他绘制了航海路线图,把大西洋分为五块,通过采集的信息按月份标出温度,风向,风速。发现了一些良好的天然航线,这些航线上的风向、洋流都非常利于航行。1855年,莫里出版《关于海洋的物理地理学》,当时他已经绘制了120万个数据点了 |
他所绘制的航海图帮助商人节省了一大笔钱,因为航海路线减少了三分之一左右。一位船长感激的说:“在得到你的图表之前都是在盲目的航行,你的图表真的指引了我”
在你眼里德高望重的老船长,其实并不是权威万能的,他们很多时候只是根据经验在走那条熟悉的路,那条传统以来口口相传的方法之路,能够走通,但未必是最优的。
(5)价格预测
现阶段很多电子商务网都开始使用自动定价系统。
例如新产品发布前旧版本产品会经历短暂的上浮,人们习惯性觉得旧产品会更便宜,但实际付出的金额更高;例如同一趟飞机航班大家购买的票价都不太一样。
那么什么时候购买才能最大程度的节省?
模式 | 描述 |
---|---|
传统模式 | 想买的时候就买,聊天的时候发现别人买到的价格更便宜/更贵 |
大数据模式 | 采集历史时间每个航班/商品的销售价格变动情况,基于数据的历史波动预测当前价格在未来一段时间是上涨还是下降,如果呈上升趋势,系统会建议用户延迟购买 |
(6)推荐系统
模式 | 描述 |
---|---|
传统模式 | 书评家 |
大数据模式 | 推荐系统 |
虽然亚马逊的故事大 多数人都耳熟能详,但只有少数人知道它的内容最初是由人工亲自完成 的。当时,它聘请了一个由20多名书评家和编辑组成的团队,他们写书 评、推荐新书,挑选非常有特色的新书标题放在亚马逊的网页上。
客户的信息数据量非常大,所以亚马逊必须先用传统的方法对其进 行处理,通过样本分析找到客户之间的相似性,打造推荐系统。
林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试,结果他发现两者之间的业绩相差甚远。
(7)小结
很大一部分大数据应用属于这个范围,比如流行音乐预测,热销书预测,用户偏爱因素挖掘,用户画像与精准营销、最优路线规划、农业水稻病虫害规避等,这些问题长期被关注,有一套传统模式在处理(可以走通,但未必是最优),大数据提供了新鲜的血液,以历史数据,全面信息为基础作出决策。
本质上是对海量历史数据的经验总结,采集全面海量的讯息,扩大决策视野。
当然预测本身就是对未知的预判,并不是百分百的,只是去推出哪种情况发生的概率比较大,从而有选择的提前规避风险。
2、解放机械生产力
例如图像识别,语言翻译,垃圾邮件识别,自动驾驶,人脸识别门禁系统等,解放重复的人工劳动力
3、指标衡量
如果你无法度量它,就无法管理他
例如美国个人消费信息评估公司(FICO)在20世纪50年代发明了信用分,用来评估用户的信用能力。
例如新闻受欢迎度等,通过点击率、分享次数之类用户行为信息产生。数据的指标衡量比有经验的专家更能揭示哪些是符合大众口味的。
4、挖掘未知信息
海量数据中存储的,人们暂时没有发现的信息挖掘。
例如,说烂了的啤酒尿布关系发现
二、如何落地实际
尽管上面提到了很多大数据带来的数据服务,改变了人们传统的生产生活方式,决策的视野、依据变得更加全面,但是在日常中如何实现数据服务的提供呢?
(1)数据服务的产出以业务为导向,目标方向要明确,否则提供的输出服务属于无意义服务。因此需要明确企业的具体业务有哪些?哪些是企业需要,但无法解决的业务?
(2)知道了业务,看到了数据,还是不知道怎么做,怎么办?看看哪些是重复的机械劳动,是否可以用机器学习解决?哪些是核心业务点,是否能从数据的角度提高生产?是否需要建立指标度量?最后考虑一下未知挖掘?
三、当前困难
1、如今,数据库管理、数据科学、机器学习算法等类似行业的技能很走俏。但随着大数据成为人们生活一部分,大数据工具变得更容易更方便,越来越多的人会掌握这些技能,就像20世纪60-80年代之间计算机编程技术变得越来越普遍。毕竟第一批35+程序员已经面临转行送快递好还是送外卖好了。
2、国内大多数企业还没有发展到能够利用大数据产生效益这一步,大数据还处于摸索阶段,由于处于初级阶段,需求自然也比较少[3]
3、技术不是万能的,不是给分析师一批数据,然后给个需求就可以实现的。
4、尽管有海量数据存储,但缺少有监督训练的样本数据。大部分领导层并没有意识到样本数据对机器学习的重要性,但毕竟机器学习的本质是对海量历史数据的经验总结并达到预测推断的作用,机器的分类,预测都是基于有监督样本数据的。
5、随着大数据的发展,存在大量的数据采集设备,桥梁磨损传感器、温度湿度采集仪、汽车传感器、甚至人手一只的手机等,每天记录了大量行动轨迹,喜好偏好,社交关系,家属情况,资金信息等等,带来方便的同时也变得透明了。
参考资料
[1] 《大数据时代》维克托•迈尔•舍恩伯格
[2] 央视纪录片——大数据时代
[3] 统计与大数据:https://www.zhihu.com/question/296552415/answer/503325496
网友评论