美文网首页
短语挖掘发现2

短语挖掘发现2

作者: 李小宝宝宝 | 来源:发表于2016-09-07 14:20 被阅读0次

短语挖掘1中,通过凝聚程度和自由程度,能够比较有效的挖掘新短语;在实际工作中,还有优化的方式:

Mining Quality Phrases from Massive Text Corpora, Jialu Liu †∗ Jingbo Shang †∗

Github: https://github.com/shangjingbo1226/SegPhrase

经过测试,效果确实很不错。

思路如下:

凝聚程度和自由程度计算后,设定阈值获得短语,是一个很简单快捷的无监督学习方式;换个方式思考,凝聚程度和自由程度是判断是否为短语的重要特征,是否还有别的特征?能否将这些特征放在一起训练模型获得特征权重?如果样本比较少,如何自动增加样本?

1)是否还有别的特征?有

a、出现次数

b、完整性,比如“vector machine” vs. “support vector machine”

c、信息量,比如“this paper” (词频高,但是没有信息量)?是否以停用词结尾或者开头,IDF大小,是否在双引号,()等符号中

2)能否将特征放在一起训练?可以

RF或者GBDT都非常适合

3)如果样本少,如何增加样本?

Bootstrap,不断加入上轮预测的正样本;负样本可以自动生成

4)创新点?

在统计词频的过程中,会遇到这种情况:

A standard ⌈feature vector⌋ ⌈machine learning⌋ setup is used to describe...

“feature vector”和“machine learning”是两个候选短语,但是vector machine也是候选短语,此时如何消歧?通常的算法,会三个短语都加一次,显然不对,更合理的方式是确认一种分词方案。需要考虑的指标有:短语质量分,长度惩罚,预料概率等

相关文章

  • 短语挖掘发现2

    短语挖掘1中,通过凝聚程度和自由程度,能够比较有效的挖掘新短语;在实际工作中,还有优化的方式: Mining Qu...

  • 短语挖掘发现1

    最近在整理上市公司的主营业务产品,每年的财报会公布这个数据,但是其中的用词很不标准,比如:汽车玻璃制造、汽车玻璃业...

  • 新词发现

    1.基于互信息和左右信息熵的短语提取识别 2.反作弊基于左右信息熵和互信息的新词挖掘 3.基于spark的新词发现...

  • 名词

    一英文组成 (1)单词 (2)短语 (3)句子 (4)段落 (5)篇章 二 短语 (1)短语分为 动词短语/介词短...

  • Unit 12 -英译中,切分(2)

    口译二级-12英译中切分(2)- 切分法(二):短语切分 短语翻译: 名词短语分译 动词短语分译 介词短语分译 《...

  • 短语2

    那歇斯底里的, 不是尊严, 而是笑话。 by井溢

  • 短语2

    为。。提供资助 give fi...

  • 关键词匹配模式

    关键词匹配方式分类: 1.广泛匹配 2.短语匹配(短语-精确包含、短语-同义包含、短语-核心包含) 3.精确匹配 ...

  • 《句子成分超精解》08 2020-05-01

    阅读进度:定语 1. 形式结构:限定词、形容词及形容词短语、介词短语、不定式短语、分词短语、定语从句 2.位置:前...

  • 短语

    短语 A.look 短语 1.look at 看 2.look for 寻找 3.look up...

网友评论

      本文标题:短语挖掘发现2

      本文链接:https://www.haomeiwen.com/subject/zaokettx.html