作者:HaigLee
https://www.jianshu.com/u/67ec21fb270d
本文由 HaigLee 发布。未经许可,禁止转载。
对于挖掘标签,除了关键词提取、Embedding 向量、文本分类、命名实体识别,还有一个常见的挖掘方向:文本聚类。在做文本聚类时不需要任何人工知识加入,就可以把文本聚合成少数几堆,每一堆都有相似语义。
文本聚类如何应用在挖掘标签库上呢?
- 首先,对全量文本聚类,得到每一个类的中心;
- 然后,将新的文本向距离最近的类中心靠拢,并归入某个聚类;
- 最后,给每一个类赋予一个独一无二的ID,也可以从该类中找出最能代表该类的主题词来作为类别标签。
文本聚类和文本分类对标签库的贡献相当。相对于直接挖掘的标签来说,类之间更加独立,符合标签经济性原则。关于聚类方法的选择,传统数据挖掘中基于距离的聚类方法计算复杂度较大,效果不甚理想。现在多选择主题模型或者隐语义模型(LSI)用于文本聚类。LDA(潜在狄利克雷分布)为代表的主题模型能够更准确的抓住主题,并且能够得到软聚类的效果,也就是说可以让一条文本属于多个类簇。
LDA模型需要设定主题个数K,如果你有时间,那么这个K可以通过一些实验来对比挑选,方法是:每次计算K个主题两两相似的的平均值,选择一个平均相似度较低的值相对的K。如果时间比较紧,不想通过实验确定K,那么在推荐系统领域,只要计算资源够用,主题可以精细一些,K可以选择一个较大的值。
另外,需要注意的是,如果能得到文本在各个主题上的分布,就可以保留概率排名较高的几个主题作为文本主题。LDA工程上较难的并行化,如果文本数量没有达到海量的程度,提高单机配置也是可以的,开源LDA训练工具有LightLDA、gensim、PLDA等可以选择。
作者:HaigLee
https://www.jianshu.com/u/67ec21fb270d
本文由 HaigLee 发布。未经许可,禁止转载。
网友评论