Hurtado J L, Agarwal A, Zhu X. Topic discovery and future trend forecasting for texts[J]. Journal of Big Data, 2016, 3(1): 1-21.
摘要
从文档集中寻找主题,如研究出版物、专利和技术报告,有助于总结大规模的文本收集和万维网。它还可以帮助预测未来的主题趋势。这对许多应用都是有益,例如建模研究方向的演变和预测IT行业的未来趋势。在本文中,我们提出使用关联分析和集成预测从一组文本文档中自动发现主题,并在不久的将来预测其主题的发展趋势。为了发现有意义的主题,我们收集来自特定研究领域的出版物,数据挖掘和机器学习,作为研究的数据领域。将关联分析过程应用于收集到的数据,首先确定一组主题,然后进行时间相关性分析,以帮助发现主题之间的相关性,并确定主题和社区的网络。然后,提出了一种集成预测方法来预测未来研究课题的流行程度。
对于以上这些应用程序,潜在的技术问题本质上是两个 1):如何从一组文档(主题挖掘或发现)中总结和生成有意义的主题;以及 2)如何预测未来主题的趋势(主题预测)。现有的解决方案通常使用文本聚类( text clustering)、关联规则挖掘或潜在语义模型(association rule mining, or latent semantic models for topic discovery)来进行主题发现。
作者贡献:
- 作者提出了一种利用【句子级模式】挖掘方法,利用句子级模式挖掘来发现有意义的主题。该方法对于大规模文档具有很高的可伸缩性和效率。
- 实证验证表明,主题相关性和预测质量之间有很强的依赖性。通过利用主题依赖性,作者集成的预测模型获得了良好的性能增益。
- 该模型可视化地展示了研究主题的社区,这有助于理解不同主题的进化关系。
模型框架-Topic discovery and future trend prediction framework

上述的框架主要分为6个步骤:
- (1) 文档的转换:给定一个包含多年文档的文本语料库,首先对每个文本文档进行预处理以形成转换。
为了将文本文档转换为适合模式挖掘的格式,首先将文档的每个句子转换为词袋项。 通过这样做,每个句子被表示为一个向量,其中每个维度对应一个关键字,其值是表示关键字是否出现的二进制指示符。 - (2) 从转换后的文本表示中挖掘主题:使用关联规则挖掘转换后的集合中的主题模式。
词向量的集合被命名为二元关联矩阵。 收集矩阵后,从关联矩阵中进行频繁模式挖掘,以发现 X → Y 形式的关联规则,其中 X 是一组先行项,Y 是后续项。 我们将每个结果关联规则视为一个集合,其中 X 中的先行项和 Y 中的项的每个成员都是该集合的成员。 - (3) 时间主题特征表征:验证文本语料库中每个主题的频率,并为每个主题生成一个特征向量。
随后通过使用主题和[0, 1]发生率加年份数据集来生成每个向量,为每年收集的文档构建主题关联矩阵。 对于每个主题,向量将记录该主题在每年的论文中出现的次数。 因此,向量将记录主题的时间演变信息,通过它我们的预测模块可以预测每个主题的未来趋势。 - (4) 主题相关性计算:发现的主题之间的相关性。

- (5) 主题社区发现:使用主题相关性来查找主题社区。
为了找到一组彼此强相关(或强负相关的主题)的主题,作者使用两个主题之间的相关系数来构建图。 图中的每个节点表示一个主题,节点之间的边表示两个主题之间的相关程度。 这个图结构网络可以明确地对主题之间的交互进行建模。 -
(6) 集成主题预测:使用集成预测模型来预测每个研究主题的流行度。
主题预测则是使用了集成的投票机制如下(这里将不进行赘述):
作者通过主题发现的方法,将词袋模型的表示+时间 转换为了时序性的主题表示,最终构建了主题之间的图结构。用于发现主题社区并用于之后的预测。
网友评论