一、项目描述
互联网行业的快速发展已经在各个方面改善了人们的生活。大众点评作为知名的独立第三方消费点评网站,为用户提供了商户信息、消费点评及消费优惠等信息服务。
我从大众点评网http://www.dianping.com/search/category/1/45/g147,爬取了752家健身中心的店名、位置、点评条数、人均消费额、设施评分(均分)、环境评分(均分)、服务评分(均分)、点评的均分、有无团购、有无停车位等数据(还可以采集标签等数据,这部分数据可选,但有可能影响分析效果),采用数据挖掘中的分类、聚类、关联或回归等方法(算法),对如下的问题做深入分析:
- 1.探究影响健身房营业效果的因素,并以某家健身中心Fitplus运动加&Denny House为例,为其制定市场推广策略。
- 2.某客户住在中山公园附近,对设施、环境和服务要求很高,且希望建设中心能提供团购服务,请为其推荐适合的健身中心。
二、数据分析工具
IBM SPSS Modeler、IBM SPSS Statistics
三、数据预处理
3.1 缺失值分析
FIG.1.缺失值分析.PNG通过观察,原始数据的人均消费列和branch列存在空值比较多,考虑到branch(分店数量)不是主要研究因素,样本数量充足,属于完全随机缺失的情况,因此可以过滤掉人均消费为空值的记录。
同时,我们发现不同健身房人均消费数据的差距非常大,而且这些数据与其它影响因素没有必然联系。通过分析每家健身房里的用户文字评论,我们发现有无私教会极大的影响人均消费额,而这项数据无法通过爬虫获取得到。因此为了使数据更具有代表性,同时考虑到我们分析的四个问题都是面向高端健身房,我们过滤了所有人均消费额1000元以下的记录,最终的爬取结果如图1所示。
FIG.2.人均消费.png
3.2 人均消费离散化
为了简化数据结构,使分析结果更加稳定,需要将人均消费离散化,为了确定分割点,我做了描述统计并画出箱线图
FIG.3.人均消费统计描述.png FIG.4.人均消费箱线图.png
最终以2000和4000为界限,把所有数据项分为“价格实惠”,“价格适中”,“价格昂贵”三类。离散的时候使用了内置的if-else语句。
添加导出节点并命名为”Price”,编辑公式为:if 人均消费<2000 then "价格实惠" elseif 人均消费<4000 then "价格适中" else "价格高昂" endif。如图所示:
FIG.5.price导出.png
3.3 评论条数离散化
由下图可知,评论条数的离散程度较高,异常值较多,所以我们将所有数据分成4个区间:20/50/100,把所有数据分为“评论少”、“评论较少”、“评论较多”和“评论多”四类(这里没有处理异常值,而是通过合理确定分割点来弱化异常值对分析结果的影响)。
添加导出节点并命名为” ReviewNum”,编辑公式为:if 评论条数<20 then "评论少" elseif 评论条数<50 then "评论较少" elseif 评论条数<100 then "评论较多" else "评论多" endif。
3.4 设施、环境、服务离散化
由下图可知,这三项的分布差别不大,均以 7/8 为界,分别把所有记录分为“一般”,“较好”,“好”三类。
添加三个导出节点,分别命名为 Facility,Environment 和 Service。编辑公式如下:
if 设施<7 then "设施一般" elseif 设施<8 then "设施较好" else "设施好" endif
if 环境<7 then "环境一般" elseif 环境<8 then "环境较好" else "环境好" endif
if 服务<7 then "服务一般" elseif 服务<8 then "服务较好" else "服务好" endif
FIG.9.设施环境服务箱线图.png
3.5 商户评分离散化
我们爬取到的数据是商户的星级,根据各星级的分布情况,按照星级将评分分为“评分一般”、“评分较高”和“评分高”。
添加导出节点并命名为” Score”,编辑公式为:if member(rankstars,['五星商户','准五星商户']) then "评分高" elseif member(rankstars,['四星商户','准四星商户']) then "评分较高" else "评分一般" endif。
3.6 数据预处理总结
我们总共添加了6个导出节点,数据预处理的流程如下:
FIG.11.预处理流.png
预处理后的数据如下图所示,我们得到了经过离散的各项数据。
FIG.12.预处理后.png
四、探究影响健身房营业效果的因素
健身房的营业效果可以从客流量和顾客的平均打分两个方面来评估,而客流量与点评条数是基本成正比例的,因此我在本部分主要通过C5.0决策树来分析其他影响因素对平均得分(Score)和点评条数(ReviewNum)的影响。
4.1 探究影响点评条数的因素
我把影响因素分为两类:
(1)店家固有属性:位置,Price,有无团购、有无促销;
(2)用户体验:设施、服务、环境、点评分数。
4.1.1 店家固有属性
输入:位置、Price,有无团购、有无促销
目标:ReviewNum
决策树模型:添加一个C5.0节点,生成了一个三层决策树,其中影响最大的是所在位置,其次是价格,如下图所示:
FIG.13(b).店家固有属性对评论条数的影响结果.png
从上图可以看出,在市中心繁华地段的健身房评论数较多,而偏远郊区评论数较少。Fitplus运动加&Denny House位于浦东新区,因此我们分析浦东新区的情况,其决策树如下:
结论:Fitplus运动加&Denny House可以多提供一些特色团购服务,价格可以适中或高昂,走高端路线。
4.1.2 用户体验
输入:Facility、Sevice、Environment、Score
目标:ReviewNum
决策树模型:按照上一节中提到的方法,这里生成了两层决策树。其中影响因素重要性最高的是点评分数,达到了61%,然后是设施。(点评分数的重要性高于设施,存疑)如下图所示:
FIG.15(b).用户体验对评论条数的影响.png
结论:设施好和设施较好的健身房评论条数较多,而设施一般的健身房评论条数也不少,这说明人们对健身房设施的选择大多集中在两个极端,设施一般的健身房更面向大众,而设施好的健身房受高端用户青睐。对于Fitplus运动加&Denny House来说,有两种选择,或者提供较一般的健身设备提高针对普通用户,或者提供好的设备主打高端市场。
4.1.3 整体分析
输入:位置、Price、Facility、Score
目标:ReviewNum
决策树模型:可见在所有因素中,位置是最重要的因素,然后是设施,最后是价格
FIG.17 .浦东新区整体分析.png
结论:健身房需要评估商圈的位置和定位,这样才能准确把握并迎合消费者的心理,从而拥有更多的客户。而对于Fitplus运动加&Denny House,可以提供较一般的健身设备提高针对普通用户;或者提供好的设备主打高端市场。在价格方面,应当适中。
4.1.4 模型结构
FIG.18.评论条数模型结构.png4.2 探究影响点评分数的因素
与上一部分一样,将影响因素分为店家固有属性和用户体验。
4.2.1 店家固有属性
输入:位置、Price,有无团购、有无促销
目标:Score
决策树模型:生成了三层决策树。影响因素最大的是有无特色团购,在有特色团购的商家中,评分高的店家占23.037%,而没有特色团购商家的这个比例只有2.586%。次要的影响因素是位置,最后是价格,可以发现同种情况下价格实惠的健身房评分高的比例会更大。
结论:这个结论不难理解,当有团购时,用户可以获得最大程度的优惠,所以也会倾向于给更高的评分。同时,用户也更喜欢价格实惠的健身房。Fitplus运动加&Denny House,可以提高团购的优惠力度,适当降低价格,提高用户评分。
4.2.2 用户体验
输入:Facility、Sevice、Environment、ReviewNum
目标:Score
决策树模型:生成两层决策树模型,其中影响因素最大的是服务,在服务好的健身房中,评分高的健身房比例高达71.875%,而服务较好和一般的健身房的这个比例都不到1%。其次是环境。
结论:在第二层决策树中可以发现,服务一般的健身房一般环境评分也较差,这说明这两项评分有一定的关联性。对于Fitplus运动加&Denny House来说,可以提高自己的服务质量,并改善用户健身环境,从而提高用户评分。
4.2.3 整体分析
输入:有无团购、位置、Sevice
目标:Score
决策树模型:生成一层决策树模型,服务的重要性占到100%,
结论:由决策树可以看出,在所有影响点评分数的因素中,服务是最重要的,顾客是上帝,提供最优质的服务才是商户应有的追求。
五、推荐合适的健身中心
为了能够快速有效的为客户推荐合适的健身中心,需要对健身中心进行聚类。在聚类之前,为了剔除强相关变量对结果的影响,需要先进行关联分析,这里采用的是Apriori 算法。
5.1 Apriori算法关联分析
我所做的关联分析分别有以下几组:
(1)店家固有属性之间:位置、Price、有无团购、有无促销;
(2)用户体验属性之间:Facility、Sevice、Environment;
(3)Facility、Sevice、Environment、Price;
(4)Facility、Sevice、Environment、Score
这里,我设置最低条件支持度 10%,最小置信度 80%,最大前项数 5 项。
5.1.1 位置、Price、有无团购、有无促销
FIG.22 .位置、Price、有无团购、有无促销 关联分析.png分析:对于浦东新区,有特色团购的支持度为16.938%,置信度为100%,而价格适中的支持度为11.401%,置信度为100%
结论:位于浦东新区的健身房大多数都有特色团购并且价格适中,这个不难理解,浦东新区年轻人较多,消费能力中等,也更喜欢使用团购这种比较新颖的购买方式。
5.1.2 Facility、Sevice、Environment
FIG.23 .Facility、Sevice、Environment关联分析.png分析:从图中可以看出,设施、服务与环境这三项打分往往是要高都高、要低都低,原因一方面是好的店家往往在这三方面都很注意,另一方面是由于用户在这三方面的打分呈现出的关联性。
结论:对于健身房来说,设施、环境喝服务三方面都需要注重,否则可能因为某一方面影响了用户而导致得分都比较低。
5.1.3 Facility、Sevice、Environment、Price
FIG.24 .Facility、Sevice、Environment、Price关联分析.png分析:从图中除了可以得到5.1.2中的结论之外,我们还可以看到,当人均消费水平低的时候,往往服务和环境、设施也较差,而当人均消费水平高的时候,服务和环境、设施一般会比较好。但是也可以注意到,人均消费水平一般的时候,也有很多健身房的设施、服务、环境不错的。
结论:为客户推荐健身房时,最好推荐价格一般或者价格高昂的健身房。
5.1.4 Facility、Sevice、Environment、Score
FIG.25 .Facility、Sevice、Environment、Score关联分析.png分析:从图中看到,当服务和环境、设施也较差,而当人均消费水平高的时候,Score也较低;当服务和环境、设施好的 时候,Score也高;当服务和环境、设施一般的 时候,Score也一般。
结论:Score和设施、环境、服务之间有很强的关联性
5.2 K-Means聚类
首先对预处理的参数进行筛选,考虑到用户对健身房的要求,我们需要选取设施、环境和服务这三个参数。之所以没有选择健身房评分,是因为我们在前面的分析中看到健身房评分与设施、环境和服务两个维度的数据有着很强的关联性,另外还有有无团购这一属性。除了这些,还需要有健身房所在的地区和健身房名称,但均不作为算法的输入参数
输入参数:有无特色团购、设施、服务以及环境(根据客户对健身房的要求来定)、Price
聚类类别数:3类(多次尝试后)
FIG.26 .聚类结果(b).png FIG.26 .聚类结果(c).png
分析:从结果中我们看出聚类的质量还是比较好的,这三类中分别有79、115和113个健身中心。在聚类-1中,设施、服务和环境指标都是很好的,属于性价比高的健身房,聚类-2和聚类-3分别代表性价比一般的健身房和性价比低的健身房。
结论:很明显,聚类-1就是用户所希望的这一类健身房,为了在中山公园附近找到合适的健身中心,我们在这里添加了一个选择节点用于筛选健身房,筛选条件为:region = "长宁区" and '$KM-K-Means' = "聚类-1"。最终得到的筛选结果如下:
考虑到用户希望在中山公园附近,所以我们最终的推荐健身中心是中田健身工作室(中山公园店)。
六、总结
- 本次项目使用C5.0决策树分析了影响用户评分和评论条数的因素,并以健身中心Fitplus运动加&Denny House为例,为其制订了市场推广策略。
- 使用关联分析分析这些因素的内在关系。
- 使用聚类分析为用户推荐合适的健身房。
这里的每个结果对商家和客户都具有很重要的现实意义,其中蕴藏着巨大的商机。
网友评论