最近在做一款app的完善工作,其中,很重要的参考资料就是采集了电商购物平台的评论信息,并且对这些评论文本信息做分析,得到了用户对产品使用后最为真是的评价,也就明白了用户对产品满意与不满意的之处,于是价值就非常大了。这就类似于早期的问卷调查,但是由于这些评论数据的分析价值远高于问卷调查,更加客观、详细地说明了好在哪里,差在哪里,而这些正是商家改善产品设计的关键。。
本文希望从大量的评论信息中挖掘用户对手机的关注点,并探索哪些关注点可以真正影响用户对手机的评价,从而为厂商进一步改善产品提供思路。
一、数据说明
采集了京东在其自营平台上关于手机的产品数据和评论数据,产品数据主要包括:价格、品牌、尺寸、摄像像素、促销情况等,手机的评论数据包括总评论数、好评数、中评数、差评数,还包括用户对该手机的打分、购买时间和具体评论内容。
二、产品好评率分析
这里的因变量为产品的好评率,在分析之前需要对好评率做标准定义,我们把好评率定义为好评数/总评论数,得到下图:
上图是因变量手机好评率的分布直方图,我们可以发现不同手机的好评率差异是比较大的,有的可以达到100%的好评,而有的却不多70%,这也体现出来市场上品牌众多、质量参差不齐的手机品质。
三、客户都在评论哪些内容:
这部分是对文本内容做分词处理,去除了常见的提用词,保持了名词、形容词、副词等具有说明下的词汇,并且按照情感属性的好评与差评做了筛选,提取高频词汇,最终做成如下图的词云图。
同样的,我们需要需要对哪些是好评哪些是差评做出定义标准,这里就将评分大于等于3分的评论定义为好评,将评分小于3分的评论定义为差评。
从上图好评词云图中不难看出,用户对手机的好评主要体现在电池、快递、屏幕、外观、价格、手感等方面。
从上图差评词云图中,可以看到差评主要集中在售后、客服、电池、屏幕、发热、耳机等方面。
我们可以发现好评和差评出现了重复,例如同样都提到了屏幕、电池,是客户对这些尤为看重吗?
为了更好研究这点,从好评和差评的高频词中提取了“服务特征”和“手机特征”相关的词汇:
服务特征词:速度、物流、送货、快递、包装、客服、售后、发票
手机特征词:屏幕、电池、系统、性价比、质量、外观、功能、运行、充电、声音、耳机、信号、开机、软件、拍照。
我们对这些词做了T检验,发现出现与不出现“拍照”、“包装”这两个热词,评论里的得分差异不大,也就是说客户对这两个热词并不怎么关心,没有研究价值,我们就把这两个词汇剔除。
下面就需要考虑包含、不包含上述 关键词的评论在得分上有什么差异,也就是说这些词到底是对评论以及对产品起到加分还是减分的作用呢?
四、热频词在评论中的作用
这部分的主要目的,探索每个热词出现的频率是否能够显著影响评论的好评,我们在回归模型中使用好评率的对数作为因变量,如下如:
在使用BIC变量选择之后,得到下图:
当控制其他因素不变的情况下:
手机的价格越高,好评率就越高,说明手机价格高,其他方面就更加完善,更能让用户满意;
与其他品牌相比,华为、oppo和vivo三大品牌手机好评率更高;
手机屏幕越大,手机的好评率越高,说明客户更加钟爱大屏幕手机;(哈哈,这是越来越多厂商做全面屏手机的原因吗?)
物流在评论中出现越多,手机好评率更高,这是手机的加分项。
而当出现客服、电池、运行三个词的时候,出现越多,手机的好评率反而越低,这是手机的减分项
五、深度分析:为什么是加分项、为什么是减分项?
在上文中,分析得到了物流是手机的加分项,而客服、电池、运行是减分项呢?每个词背后都说明了什么市场需求呢?
通过文本分析,我们找到了物流、客服、电池、运营这个四个词汇相关的关注点:
物流:速度、服务、包装,如下图所示,物流的速度提到最多,有80%以上的评论都提到了速度,其次是服务和包装;
但是物流整体是加分的,而物流的速度、服务、包装每一项也都是加分的吗?我们把这三项的评价分与整体的评价分做了比较,得到下图:发现物流的速度、包装、服务均高于行业评价值,这就说明物流三项确实是加分的。
客服:态度、在线、售后、退换补、保价、赠品、发票,得到:态度和是否及时在线是客户最为关心的,但是关于客服的每项都是低于行业均值的,难怪提到客服相关的就是,口碑就越不好。
客服相关词及评分 电池相关词及评分 运行相关词及评分通过以上分析,最终可以我们可以知道为什么物流是正向得分,而电池、运行、客服是负向得分,这也就是说,一个手机厂商应该优化的地方。
六、实际应用场景:建立手机画像
通过上面分析以及建立的得分体系,我们可以为每部手机建立整体的要素画像,用来判断手机在物流、客服、电池、运行四个方面的整体表现。
这部分主要的思路是,计算每部手机在物流、客服、电池、运营四个方面的得分,并且与行业标准得分对,来数据化体现出这个因素的影响情况:
从上图可以看到X手机,在客服和电池方面,明显低于行业标准;N手机手机在电池方面显著高于行业标准,在物流和运行方面与行业持平。
通过上面分析,X手机在电池和客服方面表现并不,那么就需要从细处探究其原因,因此需要进行更加细微的描述。
这部分通过计算每部手机在各个关注点的得分,也就是该手机包含热频词+关注点的评论的得分之后,与改关注点的行业标准分做对比:
通过上图可以发现,在电池方面,X手机在发热处理、更换频率、容量和续航能力上表现很差;在客服方面,客服态度、即使在线情况表现也很差,这就获得了优化的点。
同样的,对于N手机的分析也是如此道理,可以得到产品的优化方向。
七、总结:
通过上文的文本分析,我们成功找到了客户关注的手机因素,并且对这些因素做了细致的优势和劣势分析,最终得到了手机产品的优化方向。
其实,文本,是数据分析中非常重要的一部分,数据分析绝不仅仅局限在数字范畴,也不仅仅局限在数字和文本范畴。如上面所示,文本分析可以得到的内容非常多,包括建立一套评价体系、分析调整画像、确定改进方向等等,相信随着机器学习和人工智能的普及,将会有更多更加科学的方法做深入分析。
网友评论