美文网首页
Python之jieba库使用自建字典库

Python之jieba库使用自建字典库

作者: 边牧哥哥sos | 来源:发表于2019-12-17 16:46 被阅读0次
一、自建分词字典的原因

有时候我们在使用jieba库分词的时候,分词给我们的结果并不是我们需要的准确的结果,如:充电宝变成了充电,所以我们需要建立自己的分词字典库并且“训练”它。

二、创建并使用自建分词字典

1.准备字典库
创建一个字典库文档dict.txt,在该文档中加入自己的分词,分词格式为:
每个词占据一行
每行分三部分:词语、词频(可省略)、词性(可省略
文件编码方式必须为:utf-8
2.分此前添加加载代码
添加代码jieba.load_userdict("dict.txt")进行加载分词词典,举例如下:

import jieba
jieba.load_userdict("dict.txt")
words = jieba.lcut("这是小米充电宝")
print(words)

3.分词对比
未添加自建字典库如下图:

1.png
添加自建字典库如下图:
2.png

相关文章

网友评论

      本文标题:Python之jieba库使用自建字典库

      本文链接:https://www.haomeiwen.com/subject/tmzsnctx.html