美文网首页
短语挖掘发现1

短语挖掘发现1

作者: 李小宝宝宝 | 来源:发表于2016-09-07 14:20 被阅读0次

最近在整理上市公司的主营业务产品,每年的财报会公布这个数据,但是其中的用词很不标准,比如:汽车玻璃制造、汽车玻璃业务,汽车玻璃生产等等,对应的产品都是“汽车玻璃”。切词后,会分成“汽车”和“玻璃”,如何自动确认“汽车玻璃”合起来是一个产品词呢?

这里需要用到短语发现的一些技巧;

曾经读到一篇神文,关于如何发现新词的,http://www.matrix67.com/blog/archives/5044;这篇博客非常清晰易懂,总结一下:

文本片段的凝固程度和自由程度,决定是否为短语。

凝固程度:

如果“电影院”不是短语,那么“电影”和“院”之间应该毫无关系,它们恰好拼在了一起的概率就应该是P(电影)*P(院) 。但事实上,P(电影院)远远大于P(电影)*P(院);

“的”和“电影”随机组合到了一起的理论概率值与“的电影”出现的真实概率很接近。

因此:“电影院”更可能是一个有意义的搭配,而“的电影”则更像是“的”和“电影”这两个成分偶然拼到一起的。

凝固程度(电影院) =  min (p(电影院) / p(电) · p(影院) , p(电影院) / p(电影) · p(院) )

凝固程度(的电影) =  min (p(的电影) / p(的) · p(电影) , p(的电影) / p(的电) · p(影))

自由程度:

“辈子”这个文本片段左边可以出现的字太有限,直觉上认为,“辈子”并不单独成词,真正成词的其实是“一辈子”、“这辈子”之类的整体。

用信息熵来衡量一个文本片段的左邻字集合和右邻字集合有多随机;不妨就把一个文本片段的自由运用程度定义为它的左邻字信息熵和右邻字信息熵中的较小值。

文本片段的凝固程度和自由程度,两种判断标准缺一不可。

只看凝固程度的话,会找出“巧克”、“俄罗”、“颜六色”、“柴可夫”等实际上是“半个词”的片段;

只看自由程度的话,会把“吃了一顿”、“看了一遍”、“睡了一晚”、“去了一趟”中的“了一”提取出来,因为它的左右邻字都太丰富了。

相关文章

  • 短语挖掘发现1

    最近在整理上市公司的主营业务产品,每年的财报会公布这个数据,但是其中的用词很不标准,比如:汽车玻璃制造、汽车玻璃业...

  • 短语挖掘发现2

    短语挖掘1中,通过凝聚程度和自由程度,能够比较有效的挖掘新短语;在实际工作中,还有优化的方式: Mining Qu...

  • 新词发现

    1.基于互信息和左右信息熵的短语提取识别 2.反作弊基于左右信息熵和互信息的新词挖掘 3.基于spark的新词发现...

  • 名词

    一英文组成 (1)单词 (2)短语 (3)句子 (4)段落 (5)篇章 二 短语 (1)短语分为 动词短语/介词短...

  • 短语1

    通过立法来 introduce laws ...

  • 介词短语+积累

    介词短语=介词+名词短语介词短语应该在被修饰的名词后面 1.基本介词短语 food from local farm...

  • 高中语文知识点,学习方法在这里!

    高中语文1.七种短语类型: 按功能划分为七种学习方法A 并列短语 B 偏正短语 C 主谓短语 D 动宾短语 E 动...

  • 关键词匹配模式

    关键词匹配方式分类: 1.广泛匹配 2.短语匹配(短语-精确包含、短语-同义包含、短语-核心包含) 3.精确匹配 ...

  • 深夜有感,焚心似火,漫谈夜话。

    某日1:58,为什么鸡不可以游泳,为什么鸭不可以刨土? 上天给我设置了长处与短处,我得自己发现,挖掘,挖掘,挖掘,...

  • 20190411-请你夸夸我

    职场再定位第四天课程-发现我的优势 发现优势的方法:向内和向外 1. 向内自我挖掘。 深入挖掘自己的感受,想法,情...

网友评论

      本文标题:短语挖掘发现1

      本文链接:https://www.haomeiwen.com/subject/yhjasttx.html