美文网首页
jieba分词的安装与使用

jieba分词的安装与使用

作者: 呆萌的我爱丽丝 | 来源:发表于2020-06-02 22:12 被阅读0次

    Jieba是一个中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。

    Anaconda创建环境:

    //下面是创建python=3.6版本的环境,取名叫py36

    conda create -n py36 python=3.6 

    Windows中使用conda activate激活环境

    在Python里安装Jieba中文分词组件

    1)下载Jieba

    官网地址:http://pypi.python.org/pypi/jieba/

    个人地址:http://download.csdn.net/detail/sanqima/9470715

    2)将其解压到D:\TDDownload,如图(1)所示:

    点击电脑桌面的左下角的【开始】—》运行 —》输入: cmd —》切换到Jieba所在的目录,比如,D:\TDDownload\Jieba,依次使用如下命令:

    C:\Users\Administrator>D:

    D:\>cd D:\TDDownload\jieba-0.35

    D:\TDDownload\jieba-0.35>python setup.py install

    01 Jieba的三种分词模式

    Jieba提供了三种分词模式:

    精确模式:试图将句子最精确地切开,适合文本分析。

    全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。

    搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

    下面是使用这三种模式的对比。

    import jieba

    sent = '中文分词是文本处理不可或缺的一步!'

    seg_list = jieba.cut(sent, cut_all=True)

    print('全模式:', '/ '.join(seg_list))

    seg_list = jieba.cut(sent, cut_all=False)

    print('精确模式:', '/ '.join(seg_list))

    seg_list = jieba.cut(sent)

    print('默认精确模式:', '/ '.join(seg_list))

    seg_list = jieba.cut_for_search(sent)

    print('搜索引擎模式', '/ '.join(seg_list))

    运行结果如下:

    全模式:

    中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一步//

    精确模式:

    中文/分词/是/文本处理/不可或缺/的/一步/!

    默认精确模式:

    中文/分词/是/文本处理/不可或缺/的/一步/!

    搜索引擎模式:

    中文/分词/是/文本/本处/处理/文本处理/不可/或缺/不可或缺/的/一步/!

    可以看到,全模式和搜索引擎模式下,Jieba将会把分词的所有可能都打印出来。一般直接使用精确模式即可,但是在某些模糊匹配场景下,使用全模式或搜索引擎模式更适合。

    https://blog.csdn.net/zw0Pi8G5C1x/article/details/88706653

    https://blog.csdn.net/sanqima/article/details/50965439

    https://blog.csdn.net/sinat_37676560/article/details/90794659

    相关文章

      网友评论

          本文标题:jieba分词的安装与使用

          本文链接:https://www.haomeiwen.com/subject/otraohtx.html