美文网首页
Python之jieba库使用自建字典库

Python之jieba库使用自建字典库

作者: 边牧哥哥sos | 来源:发表于2019-12-17 16:46 被阅读0次
    一、自建分词字典的原因

    有时候我们在使用jieba库分词的时候,分词给我们的结果并不是我们需要的准确的结果,如:充电宝变成了充电,所以我们需要建立自己的分词字典库并且“训练”它。

    二、创建并使用自建分词字典

    1.准备字典库
    创建一个字典库文档dict.txt,在该文档中加入自己的分词,分词格式为:
    每个词占据一行
    每行分三部分:词语、词频(可省略)、词性(可省略
    文件编码方式必须为:utf-8
    2.分此前添加加载代码
    添加代码jieba.load_userdict("dict.txt")进行加载分词词典,举例如下:

    import jieba
    jieba.load_userdict("dict.txt")
    words = jieba.lcut("这是小米充电宝")
    print(words)
    

    3.分词对比
    未添加自建字典库如下图:

    1.png
    添加自建字典库如下图:
    2.png

    相关文章

      网友评论

          本文标题:Python之jieba库使用自建字典库

          本文链接:https://www.haomeiwen.com/subject/tmzsnctx.html