美文网首页
jieba分词介绍

jieba分词介绍

作者: 似水流年_yt | 来源:发表于2019-04-17 12:58 被阅读0次

    Python中分分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同小异,这里先了解一下结巴分词

    一.安装

    pip install jieba

    jieba -v

    二、分词模式

    结巴中文分词支持的三种分词模式包括:

    (1) 精确模式:试图将句子最精确地切开,适合文本分析;

    (2) 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义问题;

    (3) 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

    分词模式

    三.新词识别

    新词识别

    四.自定义词典

    自定义词典

    可以看到,结巴分词工具认出了专有名词”太和殿”,但没有认出”乾清宫”和”黄琉璃瓦”。也就是说,专有名词”乾清宫”和”黄琉璃瓦”可能因分词而分开,这也是很多分词工具的一个缺陷。为此,Jieba分词支持开发者使用自定定义的词典,以便包含jieba词库里没有的词语。虽然结巴有新词识别能力,但自行添加新词可以保证更高的正确率,尤其是专有名词。

    自定义词典

    词典格式和dict.txt一样,一个词占一行; 每一行分三部分,第一部分为词语,中间部分为词频,最后部分为词性(可省略,ns为地点名词),用空格隔开。

    咱们在jieba的安装目录下添加mydict.txt,内容为

    自定义词典

    更新代码,主要是添加加载mydict.txt的代码:

    mydict

    五.去除停用词

    在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,比如“的”、“是”、“而且”、“但是”、”非常“等。这些字或词即被称为Stop Words(停用词)。

    stopword

    相关文章

      网友评论

          本文标题:jieba分词介绍

          本文链接:https://www.haomeiwen.com/subject/agngwqtx.html