最近在整理上市公司的主营业务产品,每年的财报会公布这个数据,但是其中的用词很不标准,比如:汽车玻璃制造、汽车玻璃业务,汽车玻璃生产等等,对应的产品都是“汽车玻璃”。切词后,会分成“汽车”和“玻璃”,如何自动确认“汽车玻璃”合起来是一个产品词呢?
这里需要用到短语发现的一些技巧;
曾经读到一篇神文,关于如何发现新词的,http://www.matrix67.com/blog/archives/5044;这篇博客非常清晰易懂,总结一下:
文本片段的凝固程度和自由程度,决定是否为短语。
凝固程度:
如果“电影院”不是短语,那么“电影”和“院”之间应该毫无关系,它们恰好拼在了一起的概率就应该是P(电影)*P(院) 。但事实上,P(电影院)远远大于P(电影)*P(院);
“的”和“电影”随机组合到了一起的理论概率值与“的电影”出现的真实概率很接近。
因此:“电影院”更可能是一个有意义的搭配,而“的电影”则更像是“的”和“电影”这两个成分偶然拼到一起的。
凝固程度(电影院) = min (p(电影院) / p(电) · p(影院) , p(电影院) / p(电影) · p(院) )
凝固程度(的电影) = min (p(的电影) / p(的) · p(电影) , p(的电影) / p(的电) · p(影))
自由程度:
“辈子”这个文本片段左边可以出现的字太有限,直觉上认为,“辈子”并不单独成词,真正成词的其实是“一辈子”、“这辈子”之类的整体。
用信息熵来衡量一个文本片段的左邻字集合和右邻字集合有多随机;不妨就把一个文本片段的自由运用程度定义为它的左邻字信息熵和右邻字信息熵中的较小值。
文本片段的凝固程度和自由程度,两种判断标准缺一不可。
只看凝固程度的话,会找出“巧克”、“俄罗”、“颜六色”、“柴可夫”等实际上是“半个词”的片段;
只看自由程度的话,会把“吃了一顿”、“看了一遍”、“睡了一晚”、“去了一趟”中的“了一”提取出来,因为它的左右邻字都太丰富了。
网友评论