序言 | 传道授业
商业智能数据分析师,花随花心。大家好,我是花老师。今天这篇文章,算是本系列的第一篇,核心内容主要是涉及到一些电商指标的换算。
其实,说到这里很多同学应该能够体会,由于平台早在前两年就已经陆续对一些指标进行指数化,比较常见的就是搜索人气、收藏人气、加购人气、交易指数之类的。
如果是刚开始接触这些神级指标的,都压根不知道在说什么。比如就拿搜索人气来说,你知道人气是什么吗?不知道。往往这时候,我会说别看他具体值是多少,只要知道比较大小就可以了。没错,从实用的角度来说,这是可取的。
但,假如我就想知道是多少呢?之所以会导致这种结果,是平台出于保护原始数据的考虑。毕竟,这些核心的数据都是很宝贵的。
越是隐藏的东西,越说明Ta的重要程度。比如就拿收藏人气、加购人气来说,如果你能将对手的这2个数据拿过来,却不能换算出具体的值是多少,是不是觉得有点浪费。
鉴于有部分指标如果你想获取的话,尤其是对手这方面的数据,往往都是要订购的,因此我今天就只拿其中一个指标,比如搜索人气来研究,这个在市场行情标准版里头就能拿到,虽然也是需要订购的,但我相信连这个版本都没有的同学,真的不行的。
正文 | 回归换算
上面的数据来源,就在行业大盘里头,你平时应该看的很多了,手动复制下来即可,最重要的,是要有包含搜索人气这个的数据,以及相对应的搜索点击人数这个指标的数据。
之所以要有2个指标的数据,并且还要求要相对应,就是为了告诉大家,所有指数化数据如果想要知道Ta的原始值的话,就必须先知道两者之间的关系,也就是所谓的算法模型。
别想太多,所谓的算法模型,就是指方程式。方程式你该懂吧,小学三年级的孩子都在学,你会不懂吗?我不信!!!
一般来说,要想知道一个算法模型是怎样的,我们就必须要有足够多的数据来让计算机进行训练。训练的意思,就是让计算机吃这些数据,然后分析出数据之间的规律出来。因此,专业术语上讲,我上面给到的这份表格,里头有关这2个指标的数据,就叫做训练数据。
其中,因为算法有很多种,分别包括分类、聚类、回归和关联。而我们今天要用到的就是回归算法。
所谓的回归,其实就是通过分析指标之间的关系,拟合出一条线,而这条线就是所谓的方程式。看不懂没关系,第一次都是这样。
其中,x值代表搜索人气,y值代表搜索点击人数。而我刚刚所说的一条线,就是上面这条曲线。正如大家所看到的,上面的红色框框里头的方程式 y = 1815.6e9E-05x就是所谓的算法模型,而R²的专业术语叫做拟合度,也就是相似程度。
我们先来看这个方程式,x值代表已知数据,由于我们是想通过搜索人气去求Ta的原始值,因此要让搜索人气来代表x值。
一般来说,R²越大,就说明这个方程式越接近真相。常见的,大于0.625就说明模型在可用范围内。但是,并非说上面这个图的方程式是最好的,因为还有其他的选择。
上面的这个图,我用的是指数回归算法去实现,因此得到的结果,可以看的出来就是指数型方程式。
这是第二种,叫做线性回归算法,方程式y = 2.0988x – 12642,R²可达到0.9293。之所以是线性回归,是因为Ta是一条直线,一般这种方程式,连小学生都知道怎么计算,你只需要输入x值,然后乘以2.0988,得到的结果再减去12642,那么所得到的y值就是搜索点击人数。
我们现在就可以来测试一下,(8,485 4,811)、(12,419 8,949)、(12,228 8,724) 这3个测试数据是我从刚刚上面的表格里头摘取下来的,左边代表搜索人气,右边代表搜索点击人数,经过计算,最终结果为:2.0988 * 8485 - 12642 = 5166,2.0988 * 12,419 - 12642 = 13422,2.0988 * 12,228 - 12642 = 13022。
可以看得出来,这个模型的结果跟实际值还是有很大距离的,我之所以选择用这个模型来计算,是因为这是最简单的计算方式,方便大家理解。
于是乎,我换第三种方式,y = -6E-11x3 + 3E-05x2 + 0.3861x - 658.64,这回R²为1。这种叫做多项回归算法。顾名思义,就是有多个X值需要计算。上面的方程式当中,出现类似 -6E-11这种系数,其实是16进制的数值而已,包括 3E-05也是,记住这种格式是不能拆分的,否则计算会出错。
那么16进制的数值,我们要如何才能知道Ta的8进制是多少呢?很简单,用Excel换算一下即可,如图所示
你只需要输入 =-6E-11 回车后就会自动计算,其实就是 -0.00000000006。那么我们现在就再测试一次,还是这些数据:(8,485 4,811)、(12,419 8,949)、(12,228 8,724),经过计算,结果为:
-0.00000000006*8485*8485*8485+0.00003*8485*8485+ 0.3861*8485-658.64 = 4741
-0.00000000006*12419*12419*12419+0.00003*12419*12419+0.3861*12419-658.64 = 8648
-0.00000000006*12228*12228*12228+0.00003*12228*12228+0.3861*12228-658.64 = 8439
虽然这次的结果跟实际值还是有差距,但鉴于R²已经为1,并且比前面2次的差距要小太多。因此,这个模型可以说最接近真相。
当然,如果说每次都要自己手动输入计算,那就太麻烦了,我们可以借助Excel的自动计算功能,轻松实现批量计算。这样,我们就可以批量知道搜索人气所对应的搜索点击人数。
同样的道理,加购人气需要对应加购人数,收藏人气需要对应收藏人数,交易指数需要对应支付金额。这些都是在今天的分享的范畴内,道理是一样的。
OK,今天的内容我们就讲到这里,如果你想学习本文背后所蕴含的技术的话,请查看视频、音频同步版本,花老师与你不见不散,如图所示,再会!!!
推荐 | 原创系列
《Excel高阶报表系列》目前已经更新了5招,全面解析电商数据分析报表的实现技术。
《Excel数据图表360招》目前已经更新了16招,属于基础Excel数据处理过程当中必备的常用技能。
《数据分析系列之生意参谋》目前更新到第九期,重点讲解如何借助官方数据分析工具进行深入分析。
电商相关的各类型分析篇章,有涉及到买家,店铺流量或者竞争对手分析这块,需要配合高阶报表方能实现。
数据化运营实战技能,包含各种用于运营方面的数据分析拆解技术。
结束 | 自我简介
网友评论