短语挖掘1中,通过凝聚程度和自由程度,能够比较有效的挖掘新短语;在实际工作中,还有优化的方式:
Mining Quality Phrases from Massive Text Corpora, Jialu Liu †∗ Jingbo Shang †∗
Github: https://github.com/shangjingbo1226/SegPhrase
经过测试,效果确实很不错。
思路如下:
凝聚程度和自由程度计算后,设定阈值获得短语,是一个很简单快捷的无监督学习方式;换个方式思考,凝聚程度和自由程度是判断是否为短语的重要特征,是否还有别的特征?能否将这些特征放在一起训练模型获得特征权重?如果样本比较少,如何自动增加样本?
1)是否还有别的特征?有
a、出现次数
b、完整性,比如“vector machine” vs. “support vector machine”
c、信息量,比如“this paper” (词频高,但是没有信息量)?是否以停用词结尾或者开头,IDF大小,是否在双引号,()等符号中
2)能否将特征放在一起训练?可以
RF或者GBDT都非常适合
3)如果样本少,如何增加样本?
Bootstrap,不断加入上轮预测的正样本;负样本可以自动生成
4)创新点?
在统计词频的过程中,会遇到这种情况:
A standard ⌈feature vector⌋ ⌈machine learning⌋ setup is used to describe...
“feature vector”和“machine learning”是两个候选短语,但是vector machine也是候选短语,此时如何消歧?通常的算法,会三个短语都加一次,显然不对,更合理的方式是确认一种分词方案。需要考虑的指标有:短语质量分,长度惩罚,预料概率等
网友评论