美文网首页
Python 分词工具 jieba

Python 分词工具 jieba

作者: 云上小白鸽 | 来源:发表于2017-05-22 17:06 被阅读0次

    目录

    1.jieba下载安装

    2.算法实现

    3.分词功能


    1.jieba下载安装

        Jieba是一个中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。

    1)下载Jieba

    官网地址:pypi.python.org/pypi/jieba/

    2)安装

    打开命令提示符,输入python setup.py install 进行安装

    安装结果

    2.算法实现

    1)基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);

    2)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;

    3)对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

    3.分词功能

    1)分词

    jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式;jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。

    待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8。

    jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list

    代码示例:

    #encoding=utf-8
    import jieba

    seg_list = jieba.cut("范炜是川大信管专业的老师",cut_all=True)
    print"Full Mode:","/ ".join(seg_list)#全模式

    seg_list = jieba.cut("范炜是川大信管专业的老师",cut_all=False)
    print"Default Mode:","/ ".join(seg_list)#精确模式

    seg_list = jieba.cut("范炜是川大信管专业的老师")#默认是精确模式
    print", ".join(seg_list)

    seg_list = jieba.cut_for_search("范炜是川大信管专业的老师")#搜索引擎模式
    print", ".join(seg_list)

    结果显示:

    2)自定义词典

    用法: jieba.load_userdict(file_name) # file_name 为自定义词典的路径。

    词典格式和dict.txt一样,一个词占一行;每一行分三部分,一部分为词语,另一部分为词频(可省略),最后为词性(可省略),用空格隔开。

    词频可省略,使用计算出的能保证分出该词的词频。

    更改分词器的 tmp_dir 和 cache_file 属性,可指定缓存文件位置,用于受限的文件系统。

    自定义词典示例:

    范炜 5 nr
    川大 5 j
    信管 5 j

    代码示例:

    #encoding=utf-8
    import sys
    sys.path.append("C:\Python27\Lib\site-packages\jieba")
    import jieba
    jieba.load_userdict("D:/jieba/jieba/userdict.txt")
    seg_list= jieba.cut("范炜是川大信管专业的老师")
    print("Revise: "+"/".join(seg_list))

    结果显示:

    3)调整词典

    使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

    使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。

    代码示例:

    #encoding=utf-8
    import sys
    sys.path.append("C:\Python27\Lib\site-packages\jieba")
    import jieba
    jieba.load_userdict("D:/jieba/jieba/userdict.txt")
    jieba.add_word("江大桥",freq=20000,tag=None)
    print"/".join(jieba.cut("江州市长江大桥参加了长江大桥的通车仪式。"))

    结果显示:

    4)关键词提取(基于 TextRank 算法的关键词提取)

    基本思想:

    将待抽取关键词的文本进行分词;

    以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图;

    计算图中节点的PageRank,注意是无向带权图。

    jieba.analyse.textrank(sentence, topK = 20, withWeight = False, allowPOS = ('ns', 'n', 'v', 'nv')) 注意默认过滤词性。

    jieba.analyse.TextRank() 新建自定义TextRank实例。

    代码示例:

    #encoding=utf-8
    import sys
    sys.path.append('C:\Python27\Lib\site-packages\jieba')

    import jieba
    import jieba.analyse
    from optparse import OptionParser

    s="此外,公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元,增资后,吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年,实现营业收入0万元,实现净利润-139.13万元。"
    for x, w in jieba.analyse.textrank(s,topK=5,withWeight=True):
        print("%s %s"% (x, w))

    结果显示:

    5)词性标注

    jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。

    标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。

    代码示例:

    #encoding=utf-8
    import jieba.posseg as pseg
    words = pseg.cut("我爱北京天安门。")
    for w in words:
    print("%s %s"%(w.word, w.flag))

    结果显示:

    相关文章

      网友评论

          本文标题:Python 分词工具 jieba

          本文链接:https://www.haomeiwen.com/subject/jwbfuttx.html