作者 | 顾青
编辑 | 赵楠
题图 | 站酷海洛
数据时代,判断一个互联网企业成功与否的标准之一,就是衡量它各个环节的运营是否形成了“数据飞轮”。那么对于一个互联网从业者来说,是否具有数据意识、是否能够用数据发现并解决问题,将决定了他是否能够成为一名合格产品人。
10月11日,DT君邀请到了E-Bizcamp CEO、DTALK 创始人顾青,给大家深入讲解了数据驱动业务优化的核心能力。本文根据顾青分享实录整理。
刚好最近有一个话题:为什么美国没有运营岗位?我今天就将结合这个问题来讲讲。
很多国内的企业,宁愿招上百个运营人员,也不愿意去建立一个完整的数据团队来做业务增长,以至于最后的产量并没有达到预期。而硅谷很多公司的团队规模很小,却能做到快速增长、健康盈利。这背后的差异也取决于公司的驱动模式。
根据我参与的所有线下活动和讲座收集回来的数据发现,对于数据驱动这件事情比较关心的是产品经理(56.5%)。还有很大一块就是运营端的同学。除此之外,现在有一个职能也属于上升期,叫做“数据产品”。
从数据驱动所需技能来看,网站和APP的数据分析、AB测试、数据运营、数据挖掘和机器学习的需求都很高。如果一个企业不具备有这些技能的人才,技术架构又比较陈旧,意味着他的整个数据赋能平台比较落后、算法跑不起来,那么这样的企业即便在过去十年内积累起非常多的业务经验,也很有可能在下一轮的竞争中输给类似今日头条这样技术架构及算法体系更加完善的公司。
数据运营其实就是用系统和数据产品的方式去赋能运营,而不是通过人的业务经验去拍脑子做决定,后面我会讲一些案例。
▍什么是数据驱动?
我们通常在工作中会积累一些经验,例如向哪些用户推广什么产品,定什么价格,什么渠道表有效,那这些其实都是业务经验,也都是“人工规则”。人工规则往后面进化,就需要通过“统计规则”,通过数据积累的方式把它全部变成数值。这些数值,因为具有历史效应,所以经过积累、经过算法挖掘,它能够自我学习。就是为什么我们现在通过机器学习能够把大量的复杂的、需要人工去处理的这种规则,变成计算机能够批量处理的自动规则进行处理。
上图是关于数据驱动的核心观点。很多工作,例如前端产品界面、功能上线、产品推广,这些都是人工想出来的事情,但是如何去判断它有没有价值,只能回到其本身的指标来看。
数据仓库、报表平台、DMP(数据管理平台),这些是可以让手工方式,进化到系统自动匹配做事情的一个必要的路径。
很多产品经理不理解“数据埋点”的重要性,那么带来的问题是,如果对埋点这件事情,没有认真的进行规划,直接后果将是无法判断最后产品上线的效果到底是否符合预期。所以很多产品经理就需要在这上面进行比较认真的处理。
关于报表平台,传统意义上我们的报表平台就是可视化,是可以进行多维分析,可以拉报表,可以看到一些指标浮动的平台。但是大家是否有思考过,应该用怎样的逻辑去取数?看到了报告之后,我该做什么?这些问题还是靠传统的人工决策。但是在一个产品演进过程中,用户是在变的,市场在变,人在面对很多动态因素的时候,处理能力是有边界的。
市面上其实有一些不错的第三方AB测试这样的工具,比如AppAdhoc和Optimizely。而今日头条和知乎是自己开发的,它的目的其实不是粗暴地告诉你哪个版本好用,在本质上他是为了在设想任何一件事情发展过程中,帮你去验证这件事情到底跟你设想的结果之间相关性有多高,关于相关性和因果的问题后面我会讲到。
再谈谈关于工作流程,这里可以举一个例子:汽车工业当年之所以会飞速发展的一个很根本的原因,是因为像通用这样的大公司,发明了一种全新的汽车装配流水线,也是靠这个新流程的出现,实现了大批量的汽车制造。其实互联网公司也是同理,当我们的业务由于建造了全新的数据产品工具,就会直接促使出现全新的工作流程,导致我们做事方法的根本改变,促使产品更新迭代更有价值。
▍人人都能做的“产品经理”,需要具备哪些能力?
很多人说,产品经理一定要懂数据,我倒不这么片面地看。我认为好的产品经理需要有对产品认知能力,还需要具备很强的对商业模式的判断能力。
产品经理还需要了解技术边界,对技术了解产品经理对数据的处理能力相对就比较强,可以自己用开源工具去搭一个数据分析的内部平台,如果产品经理对技术了解相当深,自己又有动手能力的话,他只要去把概率论和统计学方面的常识补完,对于数据分析的意识都不会差的。
在一个互联网公司产品会议中,产品经理真正关心的问题,不应该是上图黄色部分的非常个人化的问题,而是绿色部分的指向业务指标的有效量的问题。
很多产品经理对于企业内部数据代表的任何一个字段含义,可能都不清楚。因为很多企业在数仓建设时候的字段取名规范和数据类型不容易理解。那么我们在日常的指标计算的时候,如果对字段含义不理解,或者不了解SQL取数的规则,拿到的数据也是有问题的。所以产品经理以及整个运营团队,一定要对整个企业BI数仓字段的含义经过系统的学习,特别是特定指标差异的原因,以及简单SQL语句的书写都要理解。
还有一个问题是,一般来说用平台跑出来的报表都是固化的,如果一个产品经理需要对新的探索性的事情做出全新的指标做分析的时候,往往需要做开发排期。很多时候这种情况是要在短时间内做出决策的,但当取数、排期、开发报表出来的时候,这个事情就过去了。这也是很多企业面临的问题,他们想用数据驱动业务,但是发现实际的操作流程有问题,因为决策的能力没有能通过数据计算的能力释放给业务团队。
▍数据驱动的核心价值
从2016开始,整个移动互联网流量红利已经过去了,因为从整个广告投放的这个CPC(Cost Per Click,单位点击成本)来看的话,已经非常贵了。有一个很重要的原因,就是2010年到2016年这大概6年间,因为iPhone的推出带动了移动互联网发展之后,很多企业开始进入这个市场,导致流量被越来越多的人进行瓜分,自然成本就越来越高。
在之前“千团大战”的时候,刚刚上市的美团能在千团当中生存下来,并且最终能够拓展更多低频业务,最后他的酒店间夜量反而超过了旅游行业的携程。其实很大一部分原因是由于,美团是一家纯技术驱动的企业,它对数据的利用已经到了极致。
数据驱动的重点在于,我们需要通过数据去挖掘用户的需求,建立内部的用户画像及标签体系。因为这些系统本身就是你用来挖掘用户需求的工具,它能够帮助你去判断用户二次下订单时,我的运营策略应该是怎样的?以及我上线测试以后,我是否能够满足预期的效果?包括发多少钱的券,发五毛钱呢还是发一块钱,还是发转发十块钱。
还有一个问题是很多人只考虑获取用户,但是捋羊毛的用户其实是很多的,通过优惠手段吸引来的新用户,之后如果停止发放优惠福利,有可能又会流失掉。如何能够把真正有价值的用户吸引过来,并且提升他的LTV(Life Time Value,生命周期价值)呢?LTV这件事情我觉得是所有的产品经理和运营,都需要去考虑,就是每获取一个用户,他到底能够给你公司贡献多少价值呢?不一定是经济价值,但是至少是要一个有价值的行为。
上面这幅图包含数据驱动的核心价值。在我来看的,第一件事情必须做到的,就是必须要对用户分析提供坚实的基础。第二件事情是要对产品设计提供依据。这里面有两个层面的问题,一个是传统用户调研Persona的部分,另外一个就是用户画像的Profile的部分。
第三是优化营销策略,提供个性化的营销,个性化营销手段这件事情其实比较关键,这里面涉及到技术的支持。还有一个就是客户体验,因为很多业务其实不是把用户吸引到平台上面之后就完成了,它可能会有一个比较长的服务周期,比方旅游行业、教育行业,还有一些消费品行业。那么这里就会牵扯到客服数据的挖掘,以及整个用户在业务流程中的闭环指标,比方说教育行业的话,它有上课频次、完成率、完课率,那么这些指标都会涉及到一个客户体验的部分。
以上这些问题都是数据驱动可以去解决的,但是千万不要把用户行为数据、业务数据、营销数据、客户服务数据都分散在各个系统里面,你一定要把这些数据全部都归纳到同一个数仓里面,并且清洗完成,然后通过机器学习的算法帮你去赋能做自动化的事情。
▍案例一:如何通过数据整合提升产品转化率
我先讲一个小数据的案例,会给大家一些启发。下图是一个高端的定制旅游网站界面,他的业务就是销售一些比较贵的海岛游,或者是比较贵的别墅预订服务。
从广告营销来看,他们会投百度广告。然后会获得三种不同的转化,一种转化叫在线预订,一种叫在线询价,还有一种是另外一个产品的在线询价(因为他们做广告的时候,他可能会投不同的关键词,带来不同的产品转化)。
可以看到在8月、9月、10月和11月,因为随着广告投放的效果优化,一开始广告投放成本是上升的,但很快就下来了,并且整体转化是呈上升趋势,可以看出投放团队还是比较仔细的。但是他们也面临一些问题:
他们整个网站上转化的目标设置有很多个,在上图中可以看到,有注册邮箱、成功预定、询价提交等等。他碰到的问题是:在转化漏斗里面,“选择房间”这个页面(6385个用户),但是仅有14%(899个用户)进入到下一步“提交信用卡”,这一部分的用户流失使得团队成员很困惑,这么多用户已经到了选房间的步骤(证明用户有兴趣预定),在这一步流失是非常大的损失。
于是他们就这一部分流失用户做了分析,所有流失用户中,有33%是看过是看过入住日期页面的,还有一部分用户是在搜索框找不到任何信息之后离开的,还有212个用户直接从首页就离开了。但仅仅从页面的流程设置看,好像没有什么问题。
他们又将广告点击日期、网站转化日期、用户入住酒店Check-in日期、用户在酒店入住时长等数据放在一起做了进一步分析,最终发现一个问题:用户点击广告的日期,到用户准备入住的日期,相隔的非常远。该平台是一个旅游度假型平台,与商旅平台有一定的区别,用户一般是带着探索性的心态为自己的长假选择酒店,因此当用户点开酒店入住日期页面,发现默认入驻时间相比自己的实际入住时间早很多,便会觉得不符合自己的心理预期而离开页面。
发现这个问题之后,产品团队在选择入住时间的页面上做了调整,把Check-in默认日期往后放了5-7天,做完这次调整,同样广告带来的流量,在这一步之后转化率有了明显的提升。
从以上的例子可以看出,通过简单的数据整合就能解决一个产品转化率的问题。用户行为数据代表着用户与每一个业务发生触点的痕迹,这些痕迹以数据的形式存在于数据库中,我们可以通过将这些数据整合,完成自动化。比如说刚才酒店的例子,当这些用户与平台频繁发生业务行为,如果我们可以进行结构化的数据挖掘,通过用户行为偏好分析(例如价格偏好度、出行目的地偏好度、会员等级的偏好度、点评偏好度),一定可以发现其中的相关性。
这些用户偏好度是一些概率上的数值,这些数值可以在系统形成标签,通过这些标签形成系统,做用户预测,并在准确地在用户有需要的时候进行触达,避免一些传统销售没有效率地打电话、发短信对用户形成干扰。
▍案例二:Google 搜索引擎背后的数据策略
下面的例子是关于搜索引擎这类产品的竞争发展。目前搜索引擎市场除了中国、韩国、日本与俄罗斯等一些地区以外,Google基本是处在绝对垄断地位的(覆盖市场高达90%占有率)。
从美国最开始的竞争来讲,Google 最大的竞争对手其实是微软的 Bing ,相比较于同样强技术能力的微软,Google是如何取得更高的市场占有率呢?在2010年之前,两家公司的竞争主要在算法、产品和技术方面,但是在2010年之后,Google完胜的原因其实就在于获得的数据量与数据的完整度要远远超过 Bing。主要原因有以下几点:
1. 优化点击率模型是搜索引擎很重要的考量指标,相比微软(除了搜索引擎还有门户、MSN等业务),Google 从一开始更加专注于搜索引擎业务,因此它的核心优势在于数据收集能力。
2. 将 Gmail 与 Google 搜索的打通也是其中关键的一个策略,当 Gmail 变成全球最受欢迎的email软件,用户在其中的文本行为也都会成为搜索引擎数据来源的一部分。
3. 2005年 Google Analytics的推出,在当时没有App的情况下,所有的网站想要判断广告流量效果、用户访问情况都会去下载Google Analytics,在其中收录的网站信息也极大地帮助整个搜索引擎获得了更多维度的数据来源。
当获取了更完整的数据之后,搜索引擎的本质要做的就不仅仅是大量网页的收录、索引、根据结果排序展示,而是通过采集所有的网页,进行分词录入数据库、清洗,再做网页排序的预测,使搜索结果更加符合用户的需求。
其实我们会发现搜索引擎背后就是人工智能的预测,现在 Google 所做的语音识别、翻译、NLP(自然语言处理),都是将业务积累的规则,变成自动化的过程。
上图是 Google 大会上的一段 Demo,当 Google Assistant 与用户交流的过程中其实是有几个步骤的语音转化,中间运用到了NLP、ML Ranking等技术,但它的本质是通过触发对某一段语句情感或文本的内容识别,并通过深度学习预测应该如何提供利于用户进一步交流的内容,当然整个过程是自动的。
▍用户画像与量化指标的相关性
用户画像的本质其实就是自动化的过程,它把用户的性别、年龄、兴趣爱好、浏览行为、搜索行为、订单等所有数据用机器学习的方式变为数组,最终形成以API形式对外提供服务的产品。例如今日头条、淘宝、Netflix这些公司,都是通过用户画像的方式完成自动匹配,将个性化的内容推荐给相应的用户。
下面回归到用户画像的本质。在一个产品生命周期中,探索期的数据类型还比较粗放,数据量有限,业务线可能会随时调整,指标体系不够完整,研发资源也不会重点投入到数据团队。处在这一类型的产品可能会借用一些第三方工具(GrowingIO、GA、诸葛IO等等),但是通常公司也不太会把业务数据传给第三方公司,因此在评估产品成果、运营目标、营销成果的时候还是需要自己去做业务埋点,用产品自身的后台数据去做业务验证。
在前期就有数据的情况下,当产品进入成长期,基础的数据采集数仓几经是基本具备的,这个时候要做的其实是,将数据进行清洗,洗出针对用户的静态属性和行为点的数据,然后通过一些线性统计算法放到平台中。这个时候大家发现,一旦这件事情完成之后的话,运营人员其实是不需要数据分析团队进行介入的。因为你已经在一个系统里面能看到所有的特定业务目标的相关定量数据了。
关于相关性的问题,从上图的表格中可以看到,一个特定项目里面,业务系统中有相关的标签,例如:性别、年龄段、功能使用标签活跃频率等等。从这幅图解读出来之后,可以发现正相关最高的是“XX功能使用”,而“活跃频率”的相关程度并不明显。因此,当运营人员、产品经理可以通过内部系统,将所有标签用相关性进行拆解,他们就很容易找到相关性最高的那些点,知道做哪些事情、优化哪些功能可以最大程度提高核心指标。
上图是一个旅游平台酒店的用户画像案例。通过把用户与业务属性相关的数据进行线性回归计算,然后把结果偏好映射到了二维表。二维表的数值越高,代表用户的消费能力越高,最后可以基于这个映射过程做“同类人推荐”。
在大型的旅游平台里,用户经常会浏览酒店下方的评论,这些评论可以通过文本挖掘的方式形成标签,例如“价格适中”、“安静”、“床品好”等描述词,然后再通过自然语言处理算法形成数据模型,并内置在系统中给每个点评打出用户标签,这样的做法可以影响到新用户的转化率。
当一个新用户在浏览过程中,系统可以根据这个用户的标签,筛选到类似的点评首先展现在页面上,会对转化率有一个很大的提升。
▍通过AB测试验证相关性
在上面讲讲到的酒店案例中,在一开始上算法的过程中,其实是不能保证一定可以有效提升转化率的,因此要做AB测试。
上图是谷歌的一个工作流程,在任何项目实现之前,都需要先做一个小流量的测试。AB测试是利用统计学原理,把一个产品上的用户,按照流量的算法进行区分,排除相互干扰的因素进行测试。通常会进行三组,一组是原来的版本,第二组是测试的试验组,第三组是一个对照组(与试验组不同的方法,用于排除某一个特定的元素)。
在做AB测试的时候也需要根据用户标签做筛选,根据特定用户群体做验证。关于AB测试的70%的结果,很可能是让你意识到你的实验结果没有统计性上的显著相关性。也就是前面的相关性表格,如果相关性不显著,可能这个方案就要放弃。我这里再强调一下相关性因果性的事情,大家可以看下面这个例子:
如果说一个外星人来到地球,发现下雨的时候经常出现雨伞,所以他判断“因为有雨伞,所以下雨了”,这个是有问题的。雨伞和雨是相关性的典型例子,用因果来判断会导致以为不带伞就不会下雨的谬论。因果其实也是我们人类在探索产品改版,或者遇到未知问题时候的一种思维模式,我们希望通过A来验证B是否产生,来判断A导致B,而往往陷阱就在这个思维模式里面。
最后再给大家强调一下数据驱动的核心知识点。之前经常提出的增长黑客这个概念,很多产品增长套路我是不建议大家去模仿,因为每个产品的套路肯定是不一样的,早年人人网抄Facebook就是一个失败的案例。我更希望大家可以去做好一开始的数据策略,全面地介入数据采集,例如,数据上报、丢弃策略这些问题,如果是作为产品经理肯定要去参与的,否则连指标口径都不知道的话,是没有办法判断最终结果的。
注:以上内容根据嘉宾顾青在数据侠线上实验室的演讲实录整理。图片来自其现场PPT,已经本人审阅。点击“阅读原文”,获取作者直播回放。对于数据产品、用户画像、标签体系、AB测试和数据驱动决策等问题,可邮件咨询顾青(richard#e-bizcamp.cn,发送时请用@代替#),或关注微信公共号e-bizcamp后台回复“顾青”,获取联系方式。
期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。
▍数据侠门派
本文数据侠顾青,E-Bizcamp CEO, DTalk创人,曾负责携程的产品和用户增长,对于如何通过海量数据挖掘来驱动业务决策有丰富的经验,也曾担任网站分析星期三WAW的联合创始人,毕业于上海交通大学。
▍加入数据侠
“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,申请入群请添加DT君微信(dtcaijing003)并备注“数据社群”,投稿、合作请联系datahero@dtcj.com。
网友评论