Selecting a Characteristic Set of Reviews

前言

这是12年kdd的文章，也算是考古文章了，希望能够从优秀的老文章中发现一些独到的思想，当然也希望能够通过别人的论文架构学习到优秀的论文是如何诞生，OK，话不多说，下面让我们开始这边文章的笔记吧。

摘要

动机
1、最原始的动机，挖掘评论的有用信息，评论对用户是很重要的，但是用户不会花费大量的时间去阅读千万级别的评论，所以机器去提取重要的信息便变得尤其的重要。
2、review-summarization and review-selection，我想这便是文章的第二个动机，也是想弥补这两种方法的缺陷。首先是评论摘要，这边是12年的文章，可见当时针对评论的摘要还都是基于统计特征的碎片化信息整理，缺乏描述性，而直接从评论中去选取重要的评论又会导致冗余信息的重复出现。即使很多学者考虑到了最终选取评论的多样性，但是他们还是忽略了多方面评论的比例，到这里作者基本已经抛出了自己的意图。
意图
结合上面的两种方法，抽取一小部分评论并且让它们保持自己完整的统计特征（相对于完整的语料库），最终归结到一个组合优化的问题，并且它是NP问题。这边我直接翻译的原文中的话，可能有点绕，难以理解，不过没关系，我们现在只要知道它想搞什么就可以了，方法的细节，我们稍后会深入。

论文方案描述

寻找一个评论集的子集，使得它包含重要的观点特征。本质上还是评论的选择，输入是大量的评论，输出是代表性的5-20条评论。
这边为了节省时间，我直接使用原文的问题定义：

1.png

注意这边的D是损失函数，数学表现形式是二范数：

2.png
pi代表的是我们的模型，t代表的是我们的标准值，我们希望使这个模型算出的值更加接近标准值。

解释：首先我们使用其他论文使用的方法抽取出足够多的特征，这些特征可以理解为食物的美味程度、服务质量等等（餐厅评论），这里假设有z个特征，但是这些特征分别又有积极和消极的观点，所以特征可扩展成一个m=2z维度的向量。所以pi也是一个m维的向量，它接受S为输入，输出相应维度的特征向量，而图二后面的t代表的是真实的值。

这里的标准值是采用的特征的平均值。