短语挖掘发现２

作者: 李小宝宝宝 | 来源:发表于2016-09-07 14:20 被阅读0次

短语挖掘１中，通过凝聚程度和自由程度，能够比较有效的挖掘新短语；在实际工作中，还有优化的方式：

Mining Quality Phrases from Massive Text Corpora, Jialu Liu †∗ Jingbo Shang †∗

Github: https://github.com/shangjingbo1226/SegPhrase

经过测试，效果确实很不错。

思路如下：

凝聚程度和自由程度计算后，设定阈值获得短语，是一个很简单快捷的无监督学习方式；换个方式思考，凝聚程度和自由程度是判断是否为短语的重要特征，是否还有别的特征？能否将这些特征放在一起训练模型获得特征权重？如果样本比较少，如何自动增加样本？

１）是否还有别的特征？有

ａ、出现次数

ｂ、完整性，比如“vector machine” vs. “support vector machine”

ｃ、信息量，比如“this paper” (词频高，但是没有信息量)？是否以停用词结尾或者开头，ＩＤＦ大小，是否在双引号，（）等符号中

２）能否将特征放在一起训练？可以

ＲＦ或者ＧＢＤＴ都非常适合

３）如果样本少，如何增加样本？

Ｂｏｏｔｓｔｒａｐ，不断加入上轮预测的正样本；负样本可以自动生成

４）创新点？

在统计词频的过程中，会遇到这种情况：

A standard ⌈feature vector⌋ ⌈machine learning⌋ setup is used to describe...

“feature vector”和“machine learning”是两个候选短语，但是vector machine也是候选短语，此时如何消歧？通常的算法，会三个短语都加一次，显然不对，更合理的方式是确认一种分词方案。需要考虑的指标有：短语质量分，长度惩罚，预料概率等

网友评论

本文标题：短语挖掘发现２

本文链接：https://www.haomeiwen.com/subject/zaokettx.html

短语挖掘发现２