Effects of Creativity and Cluster Tightness on Short Text Clustering Performance

摘要
语料库的属性有：
- 词汇的多样程度
- 相关文档集群的紧密程度
语料库的属性往往影响聚类算法的表现，本文研究了多个语料库中不同相似度指标和聚类算法的多种组合下这些属性的影响，结果表明，对于语言学创造性强的语料库，用k-means算法进行聚类时，语意相似度指标的聚类效果要好于传统的n-gram和依赖相似度指标，但是对于没有语言学创造性的语料库语意相似性指标就没有更好的效果了。
相似度指标的选择和聚类算法的选择也有一定的关系，实验结果表明，以图为基础的聚类算法在相关文档集群紧密的语料库上的聚类效果好，但是在相关文档集群松弛的预料库上的效果不好。语意相似度指标为基础来提取文档特征向量时，即使语料库中的相关文档有较强的聚类性，但其产生的特征表示仍然是相关文档弱聚类的，因此，在相关文档集群的紧密程度高的情况下，如果想要使文档聚类效果好，就不要用语意相似度指标来进行聚类。
介绍
集体话语语料库——多个作者对相似主题回应而生成的文档——由于主题和作者目的的不同有不一样的属性，例如：多个作者为字谜游戏中同样的谜底字提供线索描述，他们将写创造性的线索使字谜更加有趣且具有挑战性；与之对比，多个作者为一个照片写注释时他们就很少有创造性的表达。（创造性属性）
语料库中相似文档联系的紧密程度也是不同的，例如：在卡通图片注释比赛中，对同样图片的注释可能有很大的区别；而在描述同一个谜底字的线索时这些描述的相关程度往往更加紧密。（相关文档联系紧密程度属性）
本文研究这些语料库属性是如何影响最优聚类算法选择的。选择聚类算法主要有两个方面：
- 相似度指标
- 用来分类文档的聚类方法
假设创造性使得作者用不同的方式表达同一个概念，这就使产生的数据需要与无创造性的数据不同的新的相似度指标来聚类；与此同时，这里假设集群内紧密联系的语料库可以通过以图为基础的聚类算法（MCL、Louvain）有效分组，反之松弛联系则不行。本文就是研究这两个因素是如何影响聚类算法的分组效果的。
以语意为基础的方法有：
- summed word embeddings
- deep neural networks
这些方法都是以语意相似度指标来进行聚类，本文的实验结果表明这些方法在用于创造性语料库时的聚类效果要比基于传统相似度指标（n-gram count、n-gram tf-id vectors）的方法好。

但是，不同于大部分相似度任务，在文档聚类中，相似度指标的选择和聚类方法、语料库的属性都有关系。以图为基础的聚类方法在短文短聚类中表现很好，但是它对语料库中集群内的相似度是非常敏感的；此外语料库中集群联系的紧密程度是选择以基础数据为指标或者以语意相似度为指标时应该考虑的一个因素。这里已经证明，如果基础数据集群聚类已足够紧密，能够用以图为基础的方法有效地分组，此时，如果用语意相似度为指标产生特征矩阵的话实际上是一种形式上的倒退，因为语意相似度提取特征向量实际上会降低集群聚类的紧密度。