论文阅读“Topic discovery and future

作者: 掉了西红柿皮_Kee | 来源:发表于2021-10-14 11:35 被阅读0次

论文阅读“Topic discovery and future
论文小结（二）
论文阅读：Streaming pattern discovery
Business Meeting - Lesson 9
A future model of democracy usin
雅思写作：Driverless vehicles
DAY 3
论文学习：Video Suggestion and Discov
推荐系统论文阅读（三十六)-腾讯(FAT):利用胶囊网络和未来物
论文阅读“tBERT: Topic Models and BER

Hurtado J L, Agarwal A, Zhu X. Topic discovery and future trend forecasting for texts[J]. Journal of Big Data, 2016, 3(1): 1-21.

摘要

从文档集中寻找主题，如研究出版物、专利和技术报告，有助于总结大规模的文本收集和万维网。它还可以帮助预测未来的主题趋势。这对许多应用都是有益，例如建模研究方向的演变和预测IT行业的未来趋势。在本文中，我们提出使用关联分析和集成预测从一组文本文档中自动发现主题，并在不久的将来预测其主题的发展趋势。为了发现有意义的主题，我们收集来自特定研究领域的出版物，数据挖掘和机器学习，作为研究的数据领域。将关联分析过程应用于收集到的数据，首先确定一组主题，然后进行时间相关性分析，以帮助发现主题之间的相关性，并确定主题和社区的网络。然后，提出了一种集成预测方法来预测未来研究课题的流行程度。

对于以上这些应用程序，潜在的技术问题本质上是两个 1)：如何从一组文档（主题挖掘或发现）中总结和生成有意义的主题；以及 2)如何预测未来主题的趋势（主题预测）。现有的解决方案通常使用文本聚类（ text clustering）、关联规则挖掘或潜在语义模型（association rule mining, or latent semantic models for topic discovery）来进行主题发现。

作者贡献：

作者提出了一种利用【句子级模式】挖掘方法，利用句子级模式挖掘来发现有意义的主题。该方法对于大规模文档具有很高的可伸缩性和效率。
实证验证表明，主题相关性和预测质量之间有很强的依赖性。通过利用主题依赖性，作者集成的预测模型获得了良好的性能增益。
该模型可视化地展示了研究主题的社区，这有助于理解不同主题的进化关系。

模型框架-Topic discovery and future trend prediction framework

上述的框架主要分为6个步骤：

(1) 文档的转换：给定一个包含多年文档的文本语料库，首先对每个文本文档进行预处理以形成转换。
为了将文本文档转换为适合模式挖掘的格式，首先将文档的每个句子转换为词袋项。通过这样做，每个句子被表示为一个向量，其中每个维度对应一个关键字，其值是表示关键字是否出现的二进制指示符。
(2) 从转换后的文本表示中挖掘主题：使用关联规则挖掘转换后的集合中的主题模式。
词向量的集合被命名为二元关联矩阵。收集矩阵后，从关联矩阵中进行频繁模式挖掘，以发现 X → Y 形式的关联规则，其中 X 是一组先行项，Y 是后续项。我们将每个结果关联规则视为一个集合，其中 X 中的先行项和 Y 中的项的每个成员都是该集合的成员。
(3) 时间主题特征表征：验证文本语料库中每个主题的频率，并为每个主题生成一个特征向量。
随后通过使用主题和[0, 1]发生率加年份数据集来生成每个向量，为每年收集的文档构建主题关联矩阵。对于每个主题，向量将记录该主题在每年的论文中出现的次数。因此，向量将记录主题的时间演变信息，通过它我们的预测模块可以预测每个主题的未来趋势。
(4) 主题相关性计算：发现的主题之间的相关性。

(5) 主题社区发现：使用主题相关性来查找主题社区。
为了找到一组彼此强相关（或强负相关的主题）的主题，作者使用两个主题之间的相关系数来构建图。图中的每个节点表示一个主题，节点之间的边表示两个主题之间的相关程度。这个图结构网络可以明确地对主题之间的交互进行建模。
(6) 集成主题预测：使用集成预测模型来预测每个研究主题的流行度。

主题预测则是使用了集成的投票机制如下(这里将不进行赘述)：