美文网首页数据科学家成长之路产品明工作的智慧
数据产品开发前的必修课(二)——不要小看散点图

数据产品开发前的必修课(二)——不要小看散点图

作者: 老树之见 | 来源:发表于2015-07-19 22:16 被阅读892次

    文/明道软件 胡晨川

    初阶的饼图、环形图、折线图、柱形图、条形图等就不多说了,因为他们直观到无需解释。但需要提一下做这些图的时候的细节:

    首先,告别excel默认的样式和配色,因为那样会使你的报告逼格很低。在我平时工作中,许多伙伴会问“你这图表用什么软件做的?感觉好高级?”,我说“excel啊”,他们吃惊不已。但这就是要的效果!

    如何达到这些效果?先仔细摸索图表布局选项卡下的坐标轴、网格线、趋势线、图例,标签等功能细节;其次是熟悉绘图区格式里面的细节,如调整图表区域的配色,合理使用阴影等;最后是选择合适的图表来反映问题,这一点其实相当复杂,在后续的文章中会循序渐进地提及(结合一些场景),一股脑地说,我写得辛苦你读的累,划不来。

    推荐一本刘万祥的《Excel图表之道》,它会让你惊叹于excel作图功能是如此的强大。

    进入主题:强大的散点图

    很多人听到这会说,散点图很简单啊,感觉平时用不上。真不是你想的这么简单。耐心的孩子听我慢慢说。

    首先,散点图确实能很直观的反应两个变量之间的关系。

    案例一:利用散点图观察不同来源流量与网站总流量的关系。

    图1

    上图展示了某公司主站的新访客各来源渠道与总新访客量。结论很直观:direct(直接访问来源)和organic(自然搜索来源)和总的新访客有明显的正相关关系(direct与newuv相关系数达到0.89,direct来源的占比达到60%)。因此,我们知道这个公司大部分访客来源于口碑,而且其潜力还相当大,因为direct和organic图显示新访客对direct的弹性比较高,没有出现像sem(蓝色)图那样的边际效益递减的情况。

    (一些名词解释我会在文章最后列出)

    通过组合型散点图,我们已经得到了一些有价值的信息。我个人对sem来源的变化趋势非常感兴趣。针对这点我们继续挖掘信息。

    案例二:在散点图上用颜色增加一个分析维度,并添加平滑趋势线。

    图2

    图中,我将sem来源的访问量按四分位数进行了分层,配合局部加权多项式拟合线。似乎又有了新的收获:

    1.sem来源流量较少时(红色和绿色,后50%),与总流量的正相关关系是比较明显的。

    2.sem来源流量在75%到50%分位数(绿色)之间非常集中。我猜测,使sem流量维持在这个水平的投放策略,看来是有一种粘性的,即便加大投放,在一定幅度内,sem的流量增长也不明显,直到突破某个临界值,进入蓝色和紫色区域后,才会松开。

    3.较高sem流量(蓝色和紫色,前50%),与总流量的关系非常弱,拟合线几乎平了。

    到这里,您可能会这么问:sem流量在什么程度才是最优?

    要衡量这个问题,我选取了sem投放总成本,sem单位点击成本(cpc),和sem来源的注册转化率三个指标。让可爱的散点图升级!

    案例三:点的大小衡量一个新的指标,散点图进化为气泡图

    图3

    气泡图,就是除了横纵坐标轴,点的大小还能衡量一个变量的散点图。上图不仅衡量了sem投放总成本(semCOST)和sem来源流量(semUV),还用点的大小衡量注册转化率(regRate)。结论比较直观,注册转化率高的点,在右上方,且预测线显示,投放力度越大,流量越大,且注册转化率至少不变。

    得到这个结论有点振奋了,有没有?

    还能不能再增加点信息?可以,我们将单位点击成本进一步放到散点图中。

    案例四:气泡的颜色再衡量一个变量,升级为彩色气泡图

    图4

    如图,点的大小是注册转化率,点的颜色是单位点击成本,从暖色调到冷色调,由低到高。转化率高且cpc低的点,在右上角。我们可以说,sem投放成本越高,sem流量越多,且转化率越高,更可喜的是cpc还更低。对于一个sem投放部门来说,没有比这更完美的结论了。

    但是,散点图只是反映了相关关系,并不是因果关系。我们不能说,增加sem投放是注册转化率升高且cpc降低的原因。但是,有这么显著的相关关系,我们就有足够的理由去增加投放,然后再去观察数据。

    数据分析再精确,如果缩手缩脚,是依然办不成事情的。

    当然,投放策略分析是可以做得非常复杂的,我们这里只是为了介绍散点图而引入了这个场景,初步地做个分析。但在中小企业,我觉得做到这一步就可以了。(这几张图已经可以把老板搞晕了,然后给你一大笔预算!)

    注释:

    1.文中图表是使用R软件的gglot2包实现的,很遗憾不是excel。感兴趣的读者可以关注“川术”公众号并给我留言,留下邮箱。我将无偿分享代码。

    2.直接访问来源(directUV)是指直接在地址栏输入URL或者将主站URL添加收藏夹后,访问来到主页的流量。

    3.自然搜索来源(organic)是指搜索引擎上,由非付费词搜索点击进入网站的流量。而semUV就是有付费搜索词进来的。

    4.四分位数,指将一个数列排序后,处在排名第25%、50%、75%的位置的数。可以查查百分位数的概念,你会理解更透彻。

    5.局部加权回归,有点难描述。如果你懂回归,就去谷歌一下,如果不懂回归就算了。

    相关文章

      网友评论

        本文标题:数据产品开发前的必修课(二)——不要小看散点图

        本文链接:https://www.haomeiwen.com/subject/ifepqttx.html