Yin B, Zhao M, Guo L, et al. Sentence-BERT and k-means based clustering technology for scientific and technical literature[C]//2023 15th International Conference on Computer Research and Development (ICCRD). IEEE, 2023: 15-20.
摘要直译
科技文献的参考书目是科技文献中所有关键信息的集合。科技文献的聚类技术包括特征提取和聚类分析。在本文中,基于传统的句子嵌入模型,提出了一种将 improved k-means和 Sentence-BERT相结合的方法用来提升聚类的性能。
2 steps of short text clustering:
feature extraction & cluster analysis
基于Sentence-BERT的文本特征提取
-
Sentence-BERT 模型
本文将Sentence-BERT(基于BERT微调得到)模型作为文本特征的抽取模型。 基于Sentence-BERT模型的文本特征提取结构
Sentence-BERT通过创建双网络和三元网络来更新网络的权重,并且使用MSE作为回归模型的回归目标来计算两个句子嵌入表示之间的余弦相似度,具体如下:
和是对应于样本的真实值和预测值。和是第-th样本,是样本的数量。Sentence-BERT模型允许生成与任何句子文本对应的句子嵌入,从而计算任意两个句子嵌入之间的余弦相似度,并生成相似度矩阵。- 文本特征抽取
该模块使用Sentence-BERT模型在科技文献的参考书目中输入信息,输出为输入数据经过代码转换后的768维的高维嵌入空间。并使用余弦相似度生成文本对应的相似矩阵。
基于改进的k-means聚类算法
k-means算法主要是将给定的样本数据集划分到个不同的类,并对以下公式进行优化:
其中是第个类簇的中心,由当前类簇的平均嵌入表示得到。公式(2)计算了从每个类中的数据到该类的中心的欧氏距离之和,描述了一个类簇内的样本在聚类平均嵌入周围聚集的紧密程度。【E值越小,类簇内的相似性越高】传统的k-means容易受到初始类簇中心的影响,因此本文中选用了k-means++进行聚类。具体的执行步骤如下:
(1)随机选择输入样本集合中的样本作为第一个类簇中心。
(2)计算剩余的每个样本与当前已有类簇中心最短距离(即与最近一个聚类中心的距离),用表示;计算概率与距离的比例,并以概率最高的点作为新的类簇中心:
实验细节
数据获取:采用网络数据采集技术,从CNKI数据库中收集部分中国科学技术文献数据作为实验数据集,如图所示。收集的文献资料主要包括标题、作者、摘要、文献来源、发表时间、关键词和引文等。
数据预处理:首先,对文献数据进行数据清理,删除重复和不完整的数据信息,并删除征集信息、会议通知、期刊、杂志介绍等非技术性文献数据信息。剩下的42,291条科技文献数据作为实验数据集,并手工添加数据类标签。
垂直领域的应用。
网友评论