Selecting a Characteristic Set of Reviews
前言
这是12年kdd的文章,也算是考古文章了,希望能够从优秀的老文章中发现一些独到的思想,当然也希望能够通过别人的论文架构学习到优秀的论文是如何诞生,OK,话不多说,下面让我们开始这边文章的笔记吧。
摘要
动机
1、最原始的动机,挖掘评论的有用信息,评论对用户是很重要的,但是用户不会花费大量的时间去阅读千万级别的评论,所以机器去提取重要的信息便变得尤其的重要。
2、review-summarization and review-selection, 我想这便是文章的第二个动机,也是想弥补这两种方法的缺陷。首先是评论摘要,这边是12年的文章,可见当时针对评论的摘要还都是基于统计特征的碎片化信息整理,缺乏描述性,而直接从评论中去选取重要的评论又会导致冗余信息的重复出现。即使很多学者考虑到了最终选取评论的多样性,但是他们还是忽略了多方面评论的比例,到这里作者基本已经抛出了自己的意图。
意图
结合上面的两种方法,抽取一小部分评论并且让它们保持自己完整的统计特征(相对于完整的语料库),最终归结到一个组合优化的问题,并且它是NP问题。这边我直接翻译的原文中的话,可能有点绕,难以理解,不过没关系,我们现在只要知道它想搞什么就可以了,方法的细节,我们稍后会深入。
论文方案描述
寻找一个评论集的子集,使得它包含重要的观点特征。本质上还是评论的选择,输入是大量的评论,输出是代表性的5-20条评论。
这边为了节省时间,我直接使用原文的问题定义:
1.png
注意这边的D是损失函数,数学表现形式是二范数:
2.png
pi代表的是我们的模型,t代表的是我们的标准值,我们希望使这个模型算出的值更加接近标准值。
解释:首先我们使用其他论文使用的方法抽取出足够多的特征,这些特征可以理解为食物的美味程度、服务质量等等(餐厅评论),这里假设有z个特征,但是这些特征分别又有积极和消极的观点,所以特征可扩展成一个m=2z维度的向量。所以pi也是一个m维的向量,它接受S为输入,输出相应维度的特征向量,而图二后面的t代表的是真实的值。
这里的标准值是采用的特征的平均值。
网友评论