一、自建分词字典的原因
有时候我们在使用jieba库分词的时候,分词给我们的结果并不是我们需要的准确的结果,如:充电宝变成了充电、宝,所以我们需要建立自己的分词字典库并且“训练”它。
二、创建并使用自建分词字典
1.准备字典库
创建一个字典库文档dict.txt
,在该文档中加入自己的分词,分词格式为:
每个词占据一行
每行分三部分:词语、词频(可省略)、词性(可省略)
文件编码方式必须为:utf-8
2.分此前添加加载代码
添加代码jieba.load_userdict("dict.txt")
进行加载分词词典,举例如下:
import jieba
jieba.load_userdict("dict.txt")
words = jieba.lcut("这是小米充电宝")
print(words)
3.分词对比
未添加自建字典库如下图:

添加自建字典库如下图:

网友评论