随着数据规模的日益庞大,仅仅支持查询、统计的产品已经不能满足大部分用户,进而对数据分析挖掘的需求越来越大。
尽管意识到数据分析挖掘的重要性,但数据分析挖掘具体能做什么呢?究竟能带来什么具体化的价值呢?
本文将从以下几个角度描述:
一、描述统计
提到数据分析挖掘第一反应是各种高深、复杂的机器学习算法,深度学习框架,但对于一个仅支持查询、统计的产品首先需要的是描述度量。
1、度量指数
管理学大师彼得德鲁克曾经说过“你如果无法度量它,就无法管理它”(“It you can’t measure it, you can’t manage it”)。要想有效管理,就难以绕开度量的问题。
(1)NBA球员效率指数
例如对于一个新手而言,想要知道哪个球员是最优秀的,如果告诉他得分数、助攻数、抢断数等信息,肯定会被搞的晕头转向,如果你直接告诉他NBA球员效率指数会省事很多。
NBA球员效率指数 = [(得分数+助攻数+总篮板数+抢断数+盖帽数)-(投篮出手数-投篮命中数)-(罚球出手数-罚球命中数)-失误数]/球员的比赛场次
有了NBA球员效率指数,我们可以用一个单一的数字来综合判断球员表现,比较各个球员间的整体表现。
(2)空气污染指数
例如想知道当天的空气污染情况,空气污染的污染物有:烟尘、悬浮颗粒物、二氧化氮、二氧化硫、一氧化碳、挥发性有机化合物等等,根据这样一堆数据很难衡量当天的空气污染情况,用空气污染指数可以简洁明了的表示。
空气污染指数,是将常规监测的几种空气污染物浓度简化成为单一的概念性指数值形式。
空气污染指数划分为0-50、51-100、101-150、151-200、201-300和大于300六档,对应于空气质量的六个级别,指数越大,级别越高,说明污染越严重,对人体健康的影响也越明显。
(3)平均学分绩点
例如想知道学生在大学四年的学习表现,如果告诉他在大一那年毛概考了多少分,大二那年高数考了多少分显然不是很合适。我们使用GPA来衡量。
平均学分绩点(Grade Point Average,即GPA)是以学分与绩点作为衡量学生学习的量与质的计算单位.
我国院校基本上采用百分制,在转换为GPA时应采取以下标准:90至100=4,80至89=3,70至79=2,60至69=1,小于60分=0
在申请院校时可以根据GPA快速的衡量一个学生的学习综合能力。
(4)构建你的业务指数
生活中有各种这类指数(支付宝芝麻信用、股票的投资风险系数、体重的IBM指数,...),有的计算方法很简单,有的计算比较复杂,考虑影响因素很多。
尽管没有一个指数能完美无缺的衡量问题,但没有比这种指数更简单明了的度量信息了。
这样的指数构建往往需要考虑业务的需求,参考行业标准,考虑的影响因素要尽可能全面,要使搭建的指数值得信服。
2、不是纯粹的统计
数据分析的目的就是发现数据的特征和变化规律,如果只告诉你一个数字,比如昨天UV是10万,你能分析出什么?该UV值是好还是坏?是在变好还是变坏?其实什么结论都得不到,你所做的只是将数据展现出来,并非在做分析。
在发展初级阶段,我们经常见到根据各种属性画分类饼图
、重点数值的显示
,根据时间画折线图
、根据地域及数量画热力地图
、根据对象及数量画top柱形图
,本着丰富内容的目的蛮横堆砌,全篇下来没有看到什么真正有价值的信息。
单纯的数据统计图价值是不大的,有价值的是能够反应什么有意义的信息。
以典型的折线图为例
(1)寻找拐点的原因[2]
下图展示了2015-2019年间某家企业的年增长率(折线)和营收总额(柱状)变化情况。
如果到画出这张图就结束了,可不太行哦。我们需要关注“拐点”。
2017年是折线拐点,要结合其他维度数据找到异常原因。
为什么企业年增长率从2015年开始的不断上升,突然在2017年急剧下降呢?
需要另一维度的数据进行对比分析,比如图中的营收总额,很明显在2017年的时候,营收总额突然下降,之后虽然营收总额不断回升,却仍然阻止不了企业增长率的下跌。
【结论】
2017年企业营收情况太差,造成企业增长速率的放缓;
2017年之后,企业营收基本保持不变,难以支撑高速发展的企业,因此企业发展逐渐陷入停滞;
(2)有效预测[2]
到拐点分析就结束显然是不够体现分析价值的,预测是很重要的分析能力。
数据预测的方法有很多,这里使用回归预测,预测下年度的值为XXX(在0.09左右)。
【结论】
因为营收情况的平缓增长,企业的增长率大概率会保持在现有的9%不变,或者缓慢下降,除非企业采取措施扩大市场等促进营收增长的方案。
(3)差异点原因[2]
下图为A、B、C、D、E五个不同产品在不同时间内的销售情况。
由于数据波动比较大,拐点太多,转而寻找差异点。
画完图就结束了可不行哦。
2010年3月B产品的销量上升到了高峰,而其他产品均下降,这就是一个差异点;
而2011年1月虽然B产品销量也达到了高峰,但是其他产品也同时呈现了销量上升的情况,因此不足以成为一个差异点
我们需要寻找差异点原因。
(4)趋势分析[2]
根据一个产品的趋势情况,提出分析建议
B产品3年每月的销售趋势走向折线图如下
2009年整体平稳,略有上升趋势,需增加投资;
2010年销售波动大,上升趋势,需控制风险,进行优化;
2011年,没有规律下降,产品不行了;
二、数据挖掘
数据挖掘是指从数据集合中自动抽取隐藏在数据中那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等[3]。
1、常见的数据分析挖掘项目
1.1、群体处理
(1)群体细分
群体细分的目的一般是对不同类型客户的精准营销,实现利润最大化。
多采用聚类技术来进行群体细分,群体划分数量的设置比较麻烦;
当然如果已有标签数据的存储,可以用决策树等有监督分类算法;
数据特征的选择要尽可能全面、相关。
群体细分不仅能够实现客户的分类,还给出了每一类的特征,有助于对每一类小群体的了解。
航空公司为了针对不同类型客户,进行精准营销,实现利润最大化,需要对客户进行细分。
衡量一个客户价值需要考虑:消费时间间隔R,客户关系长度L,消费频率F,飞行里程M和折扣系数的平均值C五个因素。
传统的统计对于多指标的划分并不方便,我们使用聚类算法来处理。
利用K-Means聚类进行航空公司客户价值分析
针对不同的群体特征设置客户价值,对不同类型客户做精准营销。
(2)群体社交关系
社交网络是由许多节点构成的一种社会结构,节点通常是指个人或组织,而社交网络代表着各种社会关系。一般使用社交网络算法来进行关系挖掘。
金融欺诈往往组团发展,我们采用社交网络算法在金融反欺诈中的应用挖掘欺诈团伙。
社交关系的构建数据可以是来自直接关系数据,如联系人数据(用户申请贷款时填写的紧急联系人号码)等;也可以来自间接关系数据,如通过用户行为数据挖掘出共用手机设备等,基于这样的关系构建社交网络。
如图是一个典型的欺诈团体,红色是被拒绝的用户,黑色是通过但是有逾期表现的用户,绿色是通过并且表现良好的用户,该团的拒绝率达到66.8%,说明该团的平均用户信用值较低,而通过的用户中91.4%有逾期表现,进一步验证了该团的欺诈性。
(2)群体特征挖掘
已知群体划分结果,想要知道特殊群体的特征信息,例如付费用户特征、续费用户特征等。
一般采用有监督、决策树算法。
从美国1994年人口普查数据库中抽取数据,想要了解年收入超过50k群体的特征。可使用的变量为:年龄age、工作类别workclass、fnlwgt、教育education、教育年限education.num、婚姻状况marital.status、职业occupation、社会角色relationship、种族race、性别sex、资本收益capital.gain、资本损失capital.loss、每周几小时hours.per.week、祖国native.country、收入income
蓝色部分为年收入>50k的群体,蓝色越深表示依据这些特性的判断结果越准确,从左往右来看的蓝色群体的特征:
1、婚姻状况marital.status<=4.5年,资本收益capital.gain>7139.5
2、婚姻状况marital.status>4.5年,教育年限education.num<12.5年,资本收益capital.gain>5059.5
3、婚姻状况marital.status>4.5年,教育年限education.num<12.5年,资本收益capital.gain<=5059.5,职业occupation>8.5,资本损失capital.loss>1846
...
1.2、概率预测
概率学是一门研究不确定事件和结果的学问,对于很多不确定风险,我们使用概率来量化风险,帮助决策者认清哪些事情值得冒险。
一般是有监督、分类模型,可选择的算法很广,多试试选择最合适的就好。
我们想知道哪些客户可能会成为流失客户,通过概率预测找到这些客户提前采取营销手段进行客户挽留。
以电信客户流失预测为例:
提供数据为用户ID、性别、是否老年人、月费用、总费用等19个特征,该用户是否流失(Yes or No)为标签信息。
构建分类模型,使用10中分类算法做算法选型
拟合发现10种分类算法中朴素贝叶斯(Naive Bayes)的F1 Score最大,所以使用朴素贝叶斯模型效果最好,使用model.predict_proba()预测客户的流失概率。
1.3、趋势与预测
我们需要趋势预测来对未来行情的总体运行方向有一个清晰的认识
(1)趋势预测
趋势预测分析法亦称时间序列预测分析法,将过去的历史资料按时间顺序排列,然后再运用一定的数字模型来预计、推测一种预测方法。
一般使用指数平滑法、ARAMA、LSTM等时序算法,本质是序列拟合。
《哪吒之魔童降世》上映以来朋友圈和微博各种安利,上映第8天,实时票房15亿多。哪吒票房最终究竟能有多少?用科学预测下《哪吒》票房:
通过对历史票房数据进行多项式曲线拟合,建立一个票房走势的“模型”,再把现有的票房套进模型里做计算
假设上映60天,预计票房结果是 41.3 亿
(2)回归预测
回归预测把影响预测目标的各因素找出来,然后找出这些因素和预测目标之间的联系关系。
一般采用有监督、预测相关算法,可选模型比较多。
以房价预测为例,影响房价的因素有房屋面积、楼层、车库、建筑年份等因素。
比较随机森林、逻辑回归、线性回归、SVM算法的预测,比较而言,对于这份数据集随机森林的预测效果最优,SVM调参后有性能提升的空间。
当提供有房屋面积、楼层、车库、建筑年份等信息时,即可预测该房屋的售价。
1.3、路径分析
(1)路径挖掘
路径挖掘是常用的数据挖据方法之一, 是一种找寻频繁访问路径的方法。
一般采用关联算法、社交网络算法
通过挖掘学习者访问路径习惯,以此改善教学平台站点的设计,基于关联算法在网络教学平台中频繁访问路径研究
采集数据库内用户的页面访问路径信息,页面用A-K代替
假设我们得到这样的结构
A->D^E 0.333333333333
A^C->D 0.285714285714
A^C->E 1.0
即如果用户访问了A,有33%的可能会访问D和E;
如果用户访问了A和C,有28%的可能会访问D;
如果用户访问了A和C,有100%的可能会访问E
此时,我们可以以此为依据,根据用户行为改进网页的站点了。
(2)最优路径分析方法
路径的最优化问题(暂放)
1.4、推荐系统
推荐系统是一种信息过滤系统,用于预测用户对物品的评分或偏好。
(1)相似对象/产品挖掘
基于领域的协同过滤算法主要有两种,一种是基于物品的,一种是基于用户的。
协同过滤推荐的本质是寻找相似的对象/产品,所以在实现推荐的同时,我们可以挖掘出面向客户行为的相似对象。
已知客户A,想要知道数据库里和客户A有相似行为的客户有哪些?一直产品B,想知道和产品B一样被某类客户喜欢的产品还有哪些?
例如协同过滤-音乐推荐,根据不同用户对不同音乐的喜好得分,构建协同过滤模型。
算法结果可以反馈每个用户/音乐的相似度,例如用户1相关的相似度为:
相似度 影评人编号
[(0.0500000000000213, '用户2'),
(0.040000000000004, '用户3'),
......]
向该用户推荐音乐的话可以找到相似度高/满足阈值的用户,推荐他们喜欢的音乐。
(2)其他推荐方法
当然还有其他的推荐方法,例如基于内容的推荐、基于相似行为的推荐。
2、业务需求针对性项目
2.1、有监督分类模型
有监督项目要求积累一定的业务数据与对应的分类标签信息,基于业务长期积累的有监督数据构建有价值的分类模型。
一般使用各种分类模型(SVM\随机森林\xgboost...)、神经网络,选择很广。
例如金融评分卡模型、文本分类模型
2.2、其他
其他业务需求分析
参考资料
[1] 《赤裸裸的统计学》查尔斯·惠伦
[2] 趋势分析:https://zhuanlan.zhihu.com/p/91309321
[3] 《数据挖掘与数据化运营实战》卢辉
网友评论