Mining and Summarizing Customer

作者: qzlydao | 来源:发表于2020-04-10 15:52 被阅读0次

Mining and Summarizing Customer
Mining and Summarizing Customer
Mining and Summarizing customer
Mining and Summarizing Customer
无监督提取评论中的观点和意见
Summarizing
中国典型的老外形象
文献摘要
#2.1.6 ★Challenge: Summarizing D
口袋宇宙：阅读策略

论文标题：Mining and Summarizing Customer Reviews

作者：Minqing Hu, Bing Liu

出版源：Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining（2004）

1. Introduction

虽然现在任何一个电商平台都会对用户评价做一定处理，但在作者发表论文的哪个时候，应该是块空白。

用户对商品的评价对潜在客户和产品生厂商都有很大的帮助，所以作者旨在构建一个系统挖掘和总结顾客对产品的评价。

作者提出的方法主要流程可拆解为以下三步：

商品特性的挖掘，主要用到数据挖掘和NLP技术；
识别表名顾客态度倾向的语句（opinion sentences），并判断其观点是正面的还是负面的，这又分3小步：
1. 用NLP技术找到评论中的所有形容词（因为形容词最有可能表达用户的态度倾向），作者把这些词称为opinion words;
2. 对每一个opinion word，从语义上判断其正面/负面意义，用到的技术有Booststrapping和WordNet;
3. 判断每句话在态度上的倾向性。
对以上结果做结构化的汇总。

2. 技术详解

整体的技术系统结构如下图所示：

输入：商品名和商品评价页；

输出：结构化的总结

Feature-based opinion summarization.jpg

2.1 词性标注

论文采用NLProcessor linguistic parser分割评论得到每个单词得词性标注。

因为一般用名词或名词短语来表达商品属性，因此，只存储名词和名词短语。

当然，也要做些预处理，比如去掉停用词，词干和模糊匹配等。

2.2 识别高频属性

这里只抽取评论中的显示表达的商品属性，比如：

"while light, it will not easily fit in pockets."

虽然顾客想表达相机的size，但因为size没有出现在语句中，所以相机的size属性不予考虑。

论文采用association mining来挖掘高频词/短语，同时对特征出现的频率设定了一个阈值1%。

根据上面的算法得到的候选高频属性并不一定是真正的商品属性，作者用了两种方式过滤掉不太可能得特征：

1. Compactness pruning

这个方法主要是检查至少含有2个单词得特征短语（feature phrases），然后去掉哪些没意义的特征短语。

这种无意义的特征短语产生的原因是association mining算法没有考虑单词在语句中的位置顺序。

具体的处理方法在作者的另一篇论文中做了描述（Hu, M., and Liu, B. 2004. Mining Opinion Features in Customer Reviews. To appear in AAAI’04, 2004.）

2. Redundancy pruning

这个方法主要是对单个单词描述的特征进行剪枝。

作者用所谓的p-support对属性进行剪枝，关于p-support的计算，举例如下：

Sentance1：The battery life is good

Sentance2：My life is good

第一个句子包含battery、 battery life、 life三个名词

第二句子包含life一个名词。

在计算life的p-support时，因为battery life是life的超集，所以第一句不计算life的p-support，所以life的p-support为1

如果一个属性的p-support小于3，且这个属性出现在别的属性短语中，则去掉这个属性。

2.3 观点词抽取

已有人证明了语句所表达的主观性与形容词有很重要的联系。所以作者使用形容词作为观点词（opinion words）。

观点语句（opinion sentence）

一个语句至少包含一个商品特征和顾客观点的词称为观点语句（opinion sentence）
观点词（opinion word）

作者将句子中的形容词作为opinion word
有效观点词（effective opinion）

离名词/名词短语最近的形容词称为effective opinion，它在判断语句的情感时有特别的用处（见2.6节）

观点词的抽取伪代码：

for each sentence in the review database:
    if (it contains a frequent feature, extract all the adjective words as opinion words)
        for each feature in the sentence:
            the nearby adjective is recorded as its effective opinion

2.4 观点词的情感判断

对提取到的每一个观点词（opinion word），需要判断其是正面情感还是负面情感。

作者认为，同意词之间的情感是一样的；对应地，它的所有反义词的情感正好与之相反。于是，作者利用WordNet提出了一个简单又高效的做法：

首选手动选择一系列的形容词作为seed. 当然这些作为seed的形容的情感是预先就知道的；
遍历所有的观点词（opinion words）,通过WordNet来搜索其同义词和反义词，如果搜索到了，则将其加入seed中。
没有配到到的观点词（opinion word）则舍弃掉（当然也可以人为判断，重新加入seed中）

伪代码如下：

Procedure OrientationPrediction(adjective_list, seed_list) 
begin
    do {
        size1 = # of words in seed_list; 
    OrientationSearch(adjective_list, seed_list); 
    size2 = # of words in seed_list;
    } while (size1 ≠ size2); 
end
  
Procedure OrientationSearch(adjective_list, seed_list) 
begin
    for each adjective wi in adjective_list 
  begin
    # 搜索到同义词
        if (wi has synonym s in seed_list){ 
      wi’s orientation= s’s orientation; 
      add wi with orientation to seed_list; 
    }
        # 搜索到反义词
        else if (wi has antonym a in seed_list){ 
      wi’s orientation = opposite orientation of a’s orientation;
            add wi with orientation to seed_list; 
    }
    endfor; 
end

2.5 识别低频特征

有些低频特征（infrequent feature）很少有用户提到，但这些特征可能也是有用的。在3.2节中作者到association mining提取高频特征，但association mining无法识别这些低频特征。（为什么？）

作者用到的提取方法也很简单，通过3.3节中提取到的观点词（opinion word）找附近的名词，伪代码如下：

for each sentence in the review database
    if (it contains no frequent feature but one or more opinionwords){ 
    find the nearest noun/noun phrase around the opinion word. 
    The noun/noun phrase is stored in the feature set as an infrequent feature. 
  }

她的这个方法可能会提取到一些与产品属性无关的名词/名词短语，但是问题不大，因为它们所占的比例很小。

2.6 句子的情感判断

有了产品特征（product feature）和观点词（opinion word），可以判断句子的情感了。

作者的做法是通过句子中占主要的观点词决定：

如果句子中某个维度的正面/负面观点词占主要，那么评论就对应为正面/负面；
如果正面/负面的观点词一样多，则通过effective opinion或前一句的情感进行判断；
同时考虑转折词，否定词对情感的影响。

伪代码如下：

# 句子情感判断
Procedure SentenceOrietation() 
begin
    for each opinion sentence si 
  begin
        orientation = 0;
        for each opinion word op in si
            orientation += wordOrientation(op, si);
            /*Positive = 1, Negative = -1, Neutral = 0*/
        if (orientation > 0) 
        si’s orientation = Positive;
        else if (orientation < 0) 
        si’s orientation = Negative;
        else {
            for each feature f in si
                orientation += wordOrientation(f’s effective opinion, si); 
      if (orientation > 0)
                si’s orientation = Positive; 
      else if (orientation < 0)
                si’s orientation = Negative;
            else 
        si’s orientation = si-1’s orientation;
        } 
    endfor;
end

# 词性判断
Procedure wordOrientation(word, sentence) 
begin
    orientation = orientation of word in seed_list;
  # 考虑了否定词，翻转情感
    If (there is NEGATION_WORD appears closely around word in sentence) 
    orientation = Opposite(orientation);
end

2.7 信息汇总

信息汇总的步骤如下：

对给定的商品属性，对其关联的情感语句分成正面/负面两类，然后分别统计数量；
对商品属性在评论中出现的频率进行排序。

3. 实验部分

对特征提取的每一步统计了召回率和查准率，如下表所示：

The effectiveness of feature extraction.jpg

实验结果说明：

使用association mining提取出来的特征，查准率和查全率偏低，说明有很多错误的特征被提取；
通过Compactness pruning和P-support pruning后，查准率有了提高，但查全率基本没啥变化；
通过低频特征识别步骤后，查全率提升了，但查准率稍有下降，但影响不大，因为这些属性在排序时是排在靠后位置的，对大多数用户没有影响。

为了对比作者提出的方法，然后作者使用FASTR提取特征，其查准率和查全率如下表：

FASTR Result.jpg

可以看到，查准率和查全率都显著比作者提出的方法低，原因大致两点：

FASTR提取到的特征太多了，有很多都跟产品本身没有关系；
FASTR只提取单词短语，不考虑单个单词情况。

最后，作者又对情感语句的提取和语句情感判断结果做了分析，见下表：

Results of opinion sentence.jpg

对实验结果，作者做了如下两点总结：

情感语句提取的查准率偏低，作者认为是标注人员的标注比较严格造成的；
从最终的效果来看，系统的精度还是相当高的。

4. 总结

作者为了挖掘和分析商品的用户评价，构建了一个所谓的FBS(Feature-Based Summarization)系统，然后对每一步做了详尽的说明，最终实验结果表明该系统还是很高效的。

需要改进的地方有：

商品特征提取时没有考虑代词，比如it；
情感词提取时没有考虑动词和名词，只使用了形容词；
还不能区分用户观点的强弱程度。

5. 参考

Mining and Summarizing Customer
论文标题：Mining and Summarizing Customer Reviews 作者：Minqing H...
Mining and Summarizing Customer
论文介绍这是一篇发表于2004年的论文，据说该论文开创了用户评论情感分析的先河，作为电子商务网站的后台功能的一部...
Mining and Summarizing customer
前言：这篇论文提出了一个挖掘和总结客户评论的模型，即：Feature-based opinion summari...
Mining and Summarizing Customer
挖掘顾客评论(摘要型，非主题) 关键字：文本挖掘，情感分类，摘要，评论电商的发展积累了成千上万的用户评论和意见,...
无监督提取评论中的观点和意见
参考：Hu M, Liu B. Mining and summarizing customer reviews[C...
Summarizing
中国典型的老外形象
原文 Along with summarizing demographics, the survey asked ...
文献摘要
Schematic model summarizing the interactions of TECs, DCs...
#2.1.6 ★Challenge: Summarizing D
1.Introduction to the Data 2.Summarizing Major Categories...
口袋宇宙：阅读策略
GK 一、阅读策略 1. retelling and summarizing Readers retell and...