新词发现

作者: dreampai | 来源:发表于2019-10-31 16:00 被阅读0次

    发现新词

    • 目的:解决未登陆此;
    • 定义:不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段;
    • 影响因素:凝合度(最小支持度筛选)和自由程度(左右信息熵)

    解决方案

    不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,去除现有词库含有的词语,剩余的即新词

    具体步骤如下

    • 1、词频筛选
    • 2、最小支持度筛选
    • 3、左右信息熵筛选
    • 4、去除已有的词库,即为新词发现

    参考链接

    相关文章

      网友评论

        本文标题:新词发现

        本文链接:https://www.haomeiwen.com/subject/rfeiyctx.html