美文网首页
文本分析之新词发现

文本分析之新词发现

作者: spssau | 来源:发表于2024-01-30 11:06 被阅读0次

文本分析时,有些词是无法被词典识别到,比如‘元宇宙’这样的新词,以前的词典并没有它。因而可结合新词发现算法提供一些建议,新词发现具体算法可参考文章“基于信息熵和互信息的新词提取实现”,或者《互联网时代的社会语言学:基于SNS的文本数据挖掘》。

新词发现时涉及到两个关键指标,分别是:信息熵和互信息。信息熵的意义为衡量某词与其它词组合一起的容易度,比如‘宇宙’这个词与‘元’或者‘世界’组合一起变成‘元宇宙’或者‘宇宙世界’的容易度情况。信息熵越大即意味着某词越容易与其它词组合在一起形成一个词语,信息熵越小即意味着某词越不容易与其它词组合在一起。

互信息的意义为衡量文本组合的紧密程度,比如‘元’、‘宇宙’这两个词组合在一起的紧密程度情况。互信息值越大则意味着该两个词(或多个)组合在一起越牢固即越可能是一个新词,反之互信息值越小则意味着越不可能是新词。

提示:

结合信息熵和互信息的意义,一般情况下,新词更加可能为信息熵较高且互信息较高时出现。

信息熵越高意味着词更容易与其它词组合成新词,而且与其它词组合成新词的牢固度越高,即意义为‘信息熵’越高,‘互信息’越高时,越有可能是新词。

但具体情况还需要研究者结合新词发现和其实际意义进行综合决择,并无固定标准。而且通常还需要考虑词频情况,当一个‘可能新词’仅出现几次甚至更少时,加入新词的意义就很小。当判定为新词时,可批量将其加入到新词词库中,重新进行文本分析,以便得到更准备的文本分析结果。

在SPSSAU中,默认输入信息熵和互信息这两个指标,如下图所示:

表格中输入‘可能新词’,其对应的词频信息,信息熵和互信息,当然如果判断为新词,可直接对该词加入新词词库(也或者移除出去),也可以‘批量加入新词’,通常是批量加入新词更加便捷。上表格时,可通过排序按钮查看可能新词的具体情况,当然也可以对其进行下载。

除此之外,还可点击某个‘可能新词’,查看其具体的词定位信息,比如点击‘城市更新’,右侧可查看其在文本数据中的具体位置和内容等,如下图所示:

为了更直观的查看各个‘可能新词’,也可点击‘词云’按钮直观展示,如下图所示:

特别提示:

信息熵和互信息的设定标准参考:在实际研究中一般取信息熵为0.5左右,互信息一般为50~200之间即可。

当然研究者可自行定义该两个指标值的标准,然后重新分析即可。操作如下图所示:

相关文章

  • 新词发现

    参考资料 主要参考了以下两篇文章:互联网时代的社会语言学:基于SNS的文本数据挖掘 基于信息熵和互信息的新词识别 ...

  • 新词发现

    介绍 网络领域的新词发现是一个非常重要的nlp课题。在处理文本对象时,非常关键的问题在于“切词”这个环节,几乎所有...

  • 新词发现

    1.基于互信息和左右信息熵的短语提取识别 2.反作弊基于左右信息熵和互信息的新词挖掘 3.基于spark的新词发现...

  • 新词发现

    发现新词 目的:解决未登陆此; 定义:不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段; 影...

  • 新词发现

    一、新词发现 中文分词有98%的错误来自"未登录词"。这里的"未登录词",包括各类专有名词、缩写词、流行词汇等等。...

  • 新词发现

    前言 先列出来几个概念: 信息熵:变量的混乱程度,公式,熵越大表示混乱程度越大。 互信息:表示两个变量X与Y相关性...

  • 新词发现

    算法: 依据词的共有特征 成词的标准之一:内部凝固程度 什么是凝固程度?比如说一个词“电影院”,如果“电影”和...

  • 新词发现

    python3实现互信息和左右熵的新词发现 python简单实现新词发现 用python实现新词发现程序——基于凝...

  • 新词发现

    词之所以成词,其外部需要有比较丰富的上文和下文,其内部要足够稳固一般不可再分。 针对新词成词的特点, 在实际应用中...

  • 新词发现之爆笑NBA

    新词自动发现已经成为文本挖掘方面非常基本常用的技术了。比如,我为了实现某个idea,需要对NBA新闻评论语料进行分...

网友评论

      本文标题:文本分析之新词发现

      本文链接:https://www.haomeiwen.com/subject/xdwnodtx.html