数据分析师的前世
数据分析在维基百科上的定义是:
一个检查、清理、转换和建模数据的过程,目的是发现有用的信息,总结结论并用于支撑决策。
这里有一个关键点:用于支撑决策
数据分析作为一门科学被正式地提出来,是1962年美国统计学家John W.Tukey的一篇文章《The Future of Data Analysis》
里边提到
数据分析以及其中的统计学知识,必须具有科学的特征而不是数学特征,数据分析本质上是一种经验科学。
这里又有一个关键点:经验科学
数据是对历史最浓缩的表达,如果没有大量的时间和精力去读历史文献或听前人讲述经验,阅读数据是效率最高的一种回溯历史的方法。
回溯历史的目的是为了更好地面向未来,如果我们在做每个决策前都能参考历史,那么就能避免大多数坑,能更省时间地达到目的。
因此数据分析非常重要,但在过去,数据分析仅作为一种职能存在于其他职位中,这些职位包括
销售:通过数据分析做销售规划和预测;
研发:用数据分析支撑各种论点;
财务:财务分析、预测;
金融:风控。
数据分析师的今生
数据分析师开始在国内被高频提起,并作为一种职业频繁出现在招聘网站,源自2013年左右一个热词的大范围传播,那个词叫大数据。
我记得第一次看到大数据源自2013年的一本书《大数据时代》,里边提到
随着数据量的增长,人类已经没必要知道为什么,我们不必非要知道现象背后的原因,而是让数据发声,我们只需要知道是什么就够了,相关关系比因果关系更重要。
image.png
这种数据量的增长有多大?
百度百科2012年的陈述:
在有了互联网后,每天光互联网产生的内容就可以刻满1.68亿张DVD,每天发出的邮件有2940亿封之多,相当于美国两年纸质信件的数量,发出的论坛帖子达200万个,相当于《时代》杂志770年文字总和,每天卖出的手机是37.8万台,高于全球每天出生的婴儿数。截止到2012年,数据量已经从TB跃升到PB,甚至ZB级别,整个人类文明所获得的数据,有90%是在过去2年产生。
数据的巨量增长以及对数据的重视引起了技术的变革,科技公司频频推出各种大数据框架
Hadoop:由谷歌提出的分布式系统框架,能在低廉硬件上存储海量数据,并能进行海量数据计算;
Storm:提供海量数据的实时计算;
Spark:加州大学伯克利提出的MapReduce通用并行框架,能比Hadoop更高效率地用于机器学习。
由这些数据框架衍生出来的各种职业开始形成一个生态:
数据分析师作为这个生态里边最靠近业务的一环,重要性不言而喻!没有数据分析师,数据的价值无从谈起,没有数据分析师,数据存储、ETL都是成本,无法产生利润,而数据分析师可以通过数据影响决策,最终影响业务并创造更多利润。
举2个栗子,来自《精益数据分析》:
Airbnb的增长曲线
全球最大的旅行房屋租赁社区Airbnb曾在2011年纠结于新用户增长的缓慢,有一天,他们的数据分析团队发现房源照片的精美程度,跟房源的预定人数成很大的正相关。
于是,他们提出一种假设,即“附有专业摄影照片的房源要更抢手,因此房主肯定会愿意申请Airbnb提供的此项服务”。
他们迅速上线了一个提供专业摄影照片服务的版本,然后跟原版本做A/B Test,发现同一个房源,使用专业摄影服务的比不使用的多了2-3倍的订单量。
2011年后期,Airbnb雇用了20名专业摄影师,以帮助平台上的房主拍摄房屋照片,几乎在同一时间段,Airbnb的订单量曲线有了一个陡峭的增长。
Facebook的博客小挂件
2008年,当安迪加入Facebook负责用户增长时,他并没有太多这方面的经验。最初六个月,他倍感焦虑,一度认为自己随时会被炒鱿鱼。
公司设下的目标是,必须在12个月内获得2亿的新增用户,安迪这样描述当时的心态“我们面对的都是前人从未遇到过的问题,为此你特意招来一批聪明人,然而他们同样不知道如何下手。
于是这伙人就这样被放在一个资源有限的环境里,大家每天满脑子想着究竟如何达成目标”。为了探明哪些地方需要改进,安迪发起了一个深度研究项目,整个团队围绕Facebook海量用户行为数据进行研究,试图找出驱使用户注册和活跃的因素。
幸运的是,他们最终找到了突破口。他们面向用户提供带有个人Facebook基本资料的博客小挂件,用户可以将小挂件的代码粘贴到自己的公共主页或博客上,对外展示炫耀。
结果,这个看似不起眼的小挂件每月为Facebook带来了数十亿次展示量、千万次点击量和百万级的注册量,并且这些新注册的用户都十分愿意在自己博客上贴出小挂件,形成了病毒式传播。
整套增长策略获得空前成功,2008年5月,Facebook的全球独立访客数首次超过竞争对手-Myspace,前者五月独立访客数达到1.239亿人,页面浏览量达到500.6亿次,后者独立访客数为1.146亿人,页面浏览量为450.4亿次。
在国内,非常有代表性的栗子是今日头条。
2010年前后,门户时代崛起的网易、搜狐、腾讯三巨头向移动端转型,几乎垄断了当时的新闻客户端市场,而仅仅2年后,异军突起的今日头条,手握“算法”这把屠龙刀,一举打破巨头垄断,给整个新闻分发市场带来剧烈震荡,腾讯和网易为了对抗头条,推出了类头条的天天快报和网易号,但因起步晚和算法不成熟,根本无力回天。
极光大数据报告显示,今日头条在2016年底日活用户超过老大腾讯并持续上升。
后来的故事大家都知道了,新闻APP第一的头条再接再厉推出多款短视频APP,抖音最终出围,踩着快手和微视,成为短视频APP全球第一。
今日头条能够成功主要基于以下数据场景
从用户的行为数据提取几百个高维特征,并经过一系列处理包括降维、相似计算、聚类/分类、LDA分析等,最终做到5秒计算出用户兴趣,10秒更新用户模型,从而做到对用户精准和快速的新闻推送。
要达成这个场景,少不了数据分析师的探索和各种计算。
网上搜一下,数据分析师有各种职能
设计数据埋点并规范数据上报;搭建业务的基础数据指标体系,开发并维护相应的数据报表
以上职能说明来自腾讯微信的数据分析师
分析产品测试数据,包括运营数据和游戏内玩法数据,评估产品的表现情况
来自阿里的游戏数据分析师
结合渠道信息和用户信息,协助搭建渠道用户画像系统,帮助优化产品和提升运营推广效率
来自头条
负责小米广告销售部与第三方数据公司的业务对接,例如行业分析报告、用户调研等
来自小米
数据分析的职能已经非常丰富了,薪资待遇也不亚于码农,以上职位待遇都在15-30K之间。
因此,只要基于数据的业务模式继续work,数据分析师这个职位就可以长期发展下去。
记得点 喜欢 让文章传播起来!
网友评论