摘要 本文将介绍如何利用数据挖掘相关技术进行汽车品牌销量分析,通过收集各品牌汽车各个时间上的销量,以及百度指数,微信公众号文章数、阅读数,微博指数及其人群、地域分布等数据,利用Minitab、IBM SPSS工具,通过回归分析、时间序列分析、聚类、分类数据等方法分析汽车销量在推广平台维度、地域维度、品牌国别维度以及时间维度上的相关性。同时,对销量进行聚类后构造分类决策树,为预测销量值给予决策标准。最后综合分析结果从各个维度对汽车销售策略给予建议。
一、课题简介及方案简述
1.1问题分析
1.1.1 需求
①分析各品牌汽车销量指数在推广平台维度、地域维度、品牌国别维度以及时间维度上的相关性
②根据相关属性影响程度,对销量指数构造决策树
③综合分析结果,对汽车销售策略给出建议。
1.2 总体设计
①根据需求收集数据:
百度指数:http://index.baidu.com/Helper/?tpl=brand&word=%B1%CA%BC%C7%B1%BE
微博指数:http://data.weibo.com/index/hotword
微信公众号相关指数:http://social.datastory.com.cn/rank?tag=%E6%B1%BD%E8%BD%A6%7C%E6%B1%BD%E8%BD%A6%E5%93%81%E7%89%8C
销量指数:http://index.bitauto.com/
②将收集的数据录入表格中
数据录入③针对分析目标筛选数据:
根据分析的维度选择对应的列数据。对于必要的分析,我们将过滤掉缺失值的数据,如在对第3季度销量指数聚类中,由于我们不希望将缺失值作为一类簇,我们将缺失数据过滤后进行聚类将得到更好的结果。另外又如对于回归分析中,当发现某些离群点时,有必要对这些离群点过滤,以得到更好的结果。
④选择分析工具:
我们使用的回归分析、时间序列分析、数据统计工具为Minitab,使用的聚类、分类工具为IBM SPSS
⑤提出销售策略建议:
数据仅是分析的一部分,依据分析的数据,还需要结合实际情况,对数据结果分析其特性原因,综合时势提出策略建议。
二、详细分析与结论
2.1 销量关联分析
2.1.1 各属性影响程度
使用IBM SPSS,通过C&R树节点,分析各项属性对第3季度销量影响程度
结果得出,各项属性对第3季度销量指数影响重要性中,百度指数最高,公众号阅读数其次,而其余各项属性影响程度不高。
2.1.2 百度指数
使用Minitab,选择第3季度销量指数与第3季度百度指数进行拟合回归分析。
结果p值小于0.01说明显著相关,相关系数值为0.854。但存在“大众”该离群点,对回归影响很大。
去除离群点后如下图
p值小于0.01说明显著相关,相关系数值为0.645。因此我们可以判断百度指数与销量指数存在显著相关性,且呈正相关关系。
2.1.3 微信阅读量
同上,选择第3季度销量指数与公众号阅读数进行拟合回归分析。
p值较大,说明没有显著相关性
2.1.4 微博指数
选择第3季度销量指数与微博指数进行拟合回归分析。
去除离群点
p值较大,无显著相关性
2.1.5时间维度
选择几个较为普遍(销量普遍较高)的品牌各月份数据,分析其时间序列图。
2016年数据:
2017年数据:
除“大众”品牌波动较大外,其余品牌2017年1-11月销量波动平稳。同时,看出奥迪、奔驰和宝马等德系车(除“大众”)在高销量品牌中属于较低水平
去除离群点:“大众”
2016年数据:
2017年数据:
从上图可知,各品牌时间维度销量指数普遍在2月最低,11月最高。
综合两年上看:
“大众”汽车:
其余:
普遍销量有所增长,增长速率有所差别,其中“本田”汽车销量增长速率最快。
2.1.6 国别维度
图一显示,国产汽车品牌数量众多,美系、日系、德系车次居前列
结合图二,德系车均销量最高,日系、美系车次居第2第3
从总和上看,国产车品牌数最高,销量也最多,其次是德系、日系车,均达到1百万以上。
2.1.7 地域维度
选择微博热议地域与第3季度销量指数数据,做数据统计
图一说明了大部分微博用户对于这些汽车品牌热议的地域主要分布于北京和广东两地,地域分析结果或许可以间接指出网络用户的地域分布。
图二中,上海地域热评对应的品牌销量最高,但由于实际的对应的品牌数较少(仅有1个对应品牌),代表性不准确。比较北京和广东两地具有较高热议程度的地区,其均值在总体均值上下,说明该地的销量可以较好地代表全国销量水平。
显然的,北京和广东两地热议地区总销量最高。
2.2 销量估计
2.2.1 缺失值估计
①将缺失第3季度销量指数的元组过滤后,对第3季度销量指数进行k-means聚类,划分为15个聚类
②将聚类后数据与原数据合并,再进行构建分类决策树
③根据决策树分类,估计缺失值所属聚类
根据聚类对应的销量值,得出以下品牌估计的第3季度销量:
保时捷:48040 雷克萨斯:93302 特斯拉:6394 领克:23930 兰博基尼:23930 玛莎拉蒂:6394 法拉利:6394 林肯:23930 宾利:23930
对于新型品牌或某品牌的新车型,我们也可通过该决策树,根据推广数据结果预估该新汽车的销量。
2.2.2 预测后续销量
对某一品牌。根据其前几个季度销量,综合分析均值与走势,预测第4季度销量指数
对于销量波动较大的品牌,如“大众”:
“大众”品牌销量波动较大,趋势分析与平滑拟合的平均百分误差均较大,求均值预测12月销量应该是较好的方法
对于销量波动有一定趋势的品牌,如“本田”:
结合2016年分析:
对于类似“本田”品牌这类具有明显趋势的销量,趋势分析与平滑拟合的平均百分误差较小,由于具有显著地趋势特性,通过趋势分析预测12月销量会是较好的方法。
对于销量波动较为平稳的品牌,如“宝马”:
结合2016年趋势分析:
对于“宝马”这类销量波动较为平稳的品牌,在平稳的销量中具有一定的年内趋势,需要参考往年销量趋势,选择使用趋势分析预测或是平滑拟合。
2.3 人群分析
2.3.1 男性相关
由热词人群男占比与前三季度销量指数的散点图,可知汽车的主要购买力和对人群的吸引力主要在男性,当一个品牌的男性吸引力高,相对销量会高些。
2.3.2 女性相关
女性对汽车的兴趣较男性少,对女性吸引力占比比男性大的品牌为美国的凯迪拉克,英国的路虎,法国的标致,意大利的玛莎拉蒂,女性偏爱中高端市场的品牌汽车。
2.3.3 年龄分析
.年龄段25-34是对汽车感兴趣的人群中占比最大,超过75%,其次是年龄段19-24,呈现青年化。
三、综合建议
3.1 营销建议
由关联分析中,各项属性对第3季度销量影响性结果得出,百度指数对销量影响程度最大,其次是微信公众号阅读量。微博热议地域与汽车品牌国别系也有一定影响。
3.1.1推广平台
对于各个营销平台指数相关性分析中,结果可知百度指数与销量指数具有显著相关性,相关系数为0.645。而微信公众号阅读量与微博指数没有显著相关性。
对于微信公众号而言,一方面,买车的顾客一般查询汽车相关功能性能等会偏向于百度搜索,而不是微信公众号的推广;另一方面,阅读数的确不能说明一篇推文的质量,而应该关注点赞数、转发量等与推广质量有关的数据。
对于微博指数而言,由于微博偏向于娱乐性质,对于汽车销售这类商业性质的推广确实无法充分发挥。同时,微博指数与热词相关,而热词中可能掺杂着非汽车品牌的名称的其他信息,例如“大众”就还有可能是“大众点评”、“大众的喜好”等等,那么该品牌在被用户搜索热词时有可能被其他信息引流,流失了推广效益。
综上,我们建议各品牌在推广汽车时,将重点放在网页上、百度上。对于微信公众号推广,可以引导用户点赞、转发等。对于微博,由于推广效益不佳,可以减少在这上的推广力度,同时在品牌内车型名称上,推荐选择较为独特以及容易记忆的名称。
3.1.2 推广地域
从微博指数地域分布于销量指数关联分析结果中得出,北京、广东两省总销量最大。尽管我们分析出微博推广效益不佳的结果,但地域分析结果或许可以间接指出网络用户的地域分布,因此也可作为我们汽车推广重点地域的依据,尤其是在微博平台上的推广地域方向。
3.1.3 推广人群
从人群的男女占比与前三季度销量指数分析结果可以得出,在推广时可以偏向男性,比如在网页,微信朋友圈,微博等平台时,对资料性别为男的用户推送广告,但欧洲国家的中高端品牌向女性推广的占比应提高。关注频繁年龄段和销量指数之间没什么明显关系,但是频繁年龄段仍可以作为推广的重要指标,频繁年龄段25-34的人群对汽车的兴趣最大,可在25-34年龄段的人群中,加大推广力度,循环投放广告。
3.1.4推广时间
根据时间维度与销量指数关联分析,我们可以明显的看出,各品牌销量普遍在2月最低,11月最高(12月数据暂无)。分析其原因,一方面,我们推测是因为国人在2月将度过春节,此时人民普遍工作暂时休息,回归家庭,购车需求较少。反而是在春节前的11/12月份,有更多的人打算买车预备春节。另一方面,也可能是各商家在春节期间提升价格,汽车价格高,购车人数较少。
由此,我们建议在11月、12月份加大推广力度,在2、3月份的推广力度可以降低,合理分配推广成本。
3.2 预算建议
除了上述对于营销的建议,我们根据对销量指数的决策树分析结果,给出了预算分配的建议。
3.2.1 成本分配
根据销量指数决策树分析结果,在百度指数足够大,公众号阅读数不大时,预算的销量较大;而在百度指数较低时,更高的百度指数反而没有更好的销量效益。
由此可知,对于网页、百度推广较好的品牌,适合加大力度推广,推广成本具有一定的销量效益。而在百度推广一般的品牌,推广成本具有的销量效益较低,不适合扩大推广成本,应该着重与产品质量的提升。
3.2.2 销售预测
对于已有的旧车型,我们可以依据时间序列图,判断汽车销量在一年内的趋势特性,从而预计下一月的销量。对于销量波动较大的汽车,采用均值预测较好;对于具有显著趋势销量的汽车,采用趋势分析预测销量较好;对于销量波动较为平稳的汽车,需要综合往年趋势以及均值进行预测。
对于品牌的新车型,我们可以依据决策树,从百度、公众号推广的结果上,即百度指数与公众号阅读量,进行判断该车型预计的销量,从而提前对该新车型的推广方案做优化,调整成本分配。
四、报告总结
经过这次个人实践,加深了对数据挖掘的印象,深刻理解了数据挖掘的步骤与相关技术。体会到了如何运用关联、分类、聚类分析等数据挖掘技术从数据中挖掘潜在价值。在实践的同时提升对数据挖掘的兴趣,理解到数据挖掘对于商业的价值。
对于课设分析出的结果,我们感受到其中由于数据量以及分析维度过少,得出的结果可靠性不高,我们所给出的策略建议也仅仅是建立在数据分析得出的结果上的,后续还需要在实践中验证理论的正确性。
进一步的设想:
本次实践中我还缺少对多维数据之间的作用做出分析,例如百度指数是否进而影响着微信公众号阅读量、微博指数,第2季度的销量是否会影响第3季度的百度指数进而间接影响第4季度销量?
另外,数据量和属性项较少,使我得出的决策分析准确性不高。依靠大数据分析将会获得更好的分析结果。时势分析上,我还没有考虑到国家政策的影响,例如牌照限制、汽车限行等政策或许与汽车销量也有关联。
五、参考文献
数据挖掘概念与技术,第3版,机械工业出版社,[J], Jiawei Han、Micheline Kamber、Jiam Pei 著。
百度指数,http://index.baidu.com/Helper/?tpl=brand&word=%B1%CA%BC%C7%B1%BE,百度,2018.1
微指数,http://data.weibo.com/index/hotword,新浪微博,2018.1
数说风云,http://social.datastory.com.cn/rank?tag=%E6%B1%BD%E8%BD%A6%7C%E6%B1%BD%E8%BD%A6%E5%93%81%E7%89%8C,DATASTORY,2018.1
易车指数,http://index.bitauto.com/,易车网,2018.1
网友评论