最近做的一个项目,是从数据源里寻找美容项目的销售线索。我们收集了有美容意向的人群经常造访的网站和一些常见的行为URL,以此为线索,去源头数据库中寻找访问了这些网站的人群的信息,再通过第三方数据找到这些人的联系方式,这样就是销售线索。
呼叫中心拨打了电话后,会给反馈,哪些手机号是真实有效的线索(比如,通话一分钟仍然没有挂断,有兴趣留下联系方式进一步了解细节),哪些是无效线索(完全无此兴趣)。
这样做了一段时间后,发现成功率很不稳定,有时一个星期的成功率少于千分之五,比之前低了太多太多,很影响客户的营销运作的成本和积极性。
这是什么原因呢?我和运营的同学回顾了两个半月的数据,回溯分析了一下。
我们手上可以用来回溯的数据资源有:
1)成功的手机号,和失败的手机号,和还没打通还没确认到底有无意向的unknown组,分别大概有6000,200,和4000个。2)这三组手机号对应的上网ID。3)这三组上网ID的上网行为:日期,时间戳,行为URL,来源URL。4)客户呼叫中心拨打这些电话的录音记录。这个第四个数据源也是很有用的,当锁定一些有疑问的手机号的时候,往往就是需要听一下实际营销的录音,才能有感觉,这群人到底是有意向没意向,还是根本就是从业者或者水军?还是有意向美容的人群的亲友的电话?但也必须要经过数据分析,有目的,有筛选的听,否则成千上万的电话,挨个听也晕头转向了。
这样,我和运营的同学就开始了分析,首先设定了一下分析的意图:
1.1)看看是不是有某些上网ID,或者IP下面,很多的失败手机号,却没有成功手机号,那么很可能是从业机构的办公ID。如果验证了的话,那么以后就可以直接忽略这些IP下的上网行为。
1.2)看看成功组和失败组,在上网时间上有没有差异?比如,工作日访次高?周末访次高?比如,工作时间访次高?休息时段访次高?
1.3)看看两组人群,在访问的站点上有差异?比如,有的站是受了恶意点击,所以访客里大多数是水军?
1.4)两组人群对比,是不是访问的站点个数有差异?是不是真实潜客是看不多不少,看几个站,而非潜客只是误打误撞到一个网站没有细看就离开?水军则是高频遍历多个网站?
带着这些疑问,我去上网行为里统计分析了一下,使用的工具是python的pandas和numpy,尤其是Ipython notebook是利器,只要把数据放入dataframe,用来做多维度的分组各类统计再合适不过。一是速度快,二是还留下完整的分析经过,留下宝贵的复盘资料。
具体的过程是:用python把数据清洗整理为dataframe之后,dump到pickle包里,以后每次想分析的时候只要在ipython notebook里import pkl文件,即刻就可以开启随意分析。
想看分布可视化的时候,可以用python自带的matplotlib,或者导出到excel用tableau做可视化更漂亮些。
这样一分析,
2.1)确实有些IP下有近百失败手机号,没有成功号码,这些IP可以黑名单了。
2.2)失败组的人均日均访次很少超过一百,成功组的人均日均访次则三四百居多。这个可以参考,但是以后就可以依据这个把人均日均访次两百以下的拉黑吗?好像又有点滥杀。暂时保留吧,看看是否可以作为辅助规则、不能当做一票否决。
2.3)从周几的规律、和二十四小时的规律上来看,两组对照没有明显差异。
2.4)从访问站点的规律上看,发现,有半数手机只看了一个站,百分之十几的手机看两三个站,总体来说看的站越多的手机号也越少。从成功率来看,只看一个站的成功率很低大概千分之一,看了两个站,三个站的成功率已经高到百分之一,看了四个站的最高接近百分之十,然后看了5678甚至十几个站的成功率又是递减了、大概是从业人群了吧。
这样,如何进一步细化区分这些只看了一个站的人群就比较重要了。
我们考虑的思路是,虽然这些人都只看了一个站,但是两组人群是不是可能:1)总访次不一样呢?2)人均日均访次不一样呢?3)访问天数是不是不一样呢?无诚意者没事应该不会好多天访问一个站点吧?4)访问站点不一样?是不是有些站就是很多误访问的过客呢?
用这个思路看了一遍,
3.1)总访次差异不大,成功组最大是六七百,失败组却有百分之五左右过千次访问甚至近万。以后黑名单这些只看一个站、访次近万的疑似水军?这个只能滤掉占比较少的失败手机、而且有可能误杀。当做一票否决也不太合适。
btw,用tableau的‘创建级’和‘参数控件自定义数据桶’的功能,做行为频次分布,实在是利器。这个图是用10作为步长的。
但实际上,参数控件可以自定义放在右边,拉动滑块,可以把100,50,1000,任意大小的步长都可以。这样,拉动滑块,即刻就可以看到各个层级的总体占比。和写代码统计的体验简直不可同日而语。
http://www.jianshu.com/p/68b95937281e
![](https://img.haomeiwen.com/i4815247/630f229cbf932481.png)
3.2)日均人均访次差别也不大,甚至周一到周日,七天的人均日均访次都非常接近,在七八十左右。
![](https://img.haomeiwen.com/i4815247/0130d068f92df0e4.png)
3.3)访问天数,统计出来的结果,证明不能用天数当做区分。成功组人群,大概三十几个,三个月的时间里就只有一天看了一个站,却是诚意潜客;失败组人群,有少数看了十几天,大多数也是只看了一天。因此,只看一天,不是区分是否是诚意潜客的标准。
3.4)访问站点到时找到几个站,出了近百失败手机,没出成功手机。这些在1.3)里面也是要拉黑的host。
于是,经过这一轮分析,结论是:
按照1.3,3.4产出的标准,对下个星期的美容上网行为数据进行过滤,产出一批手机号码,按照2.1产出的标准,产出另一个手机号码。做一个类似A/B测试,看看两种处理逻辑,哪种产出的销售线索成功率更高。
总的来说,这一轮分析,让我们八卦的心有少许收获、也不少失望,毕竟行为模式上,真假潜客现在还真是无间道、分不清。1.3,3.4,2.1的发现,也只能做一个猜测、还要在持续的A/B测试中观望观望。下个星期再看效果吧。
网友评论