美文网首页
第一节:Jieba分词

第一节:Jieba分词

作者: taon | 来源:发表于2020-06-18 19:47 被阅读0次

    在我们的日常工作与学习当中,最常用的两种语言就是汉语和英语了。在做文本分析的时候,第一步都是分词。在英语文章中,每个词都是天然的用空格分开的,所以我们就不讨论英语的分词了。在汉语分词中,我们最常用的就是jieba分词分词库了。jieba是一款开源的分词工具包,广泛应用于文本分析,词云绘制,关键词提取,自然语言处理等领域。

    1.安装

    pip install jieba
    

    2.Jieba常用函数

    • 精确模式:精确的切分句子中的每个词语,没有冗余词。
    • 全模式:把所有可能的词语全部切分开,切分得到的词语是有冗余的。
    • 搜索引擎模式:在全模式的基础上,对长的词语再次切分,得到适合搜索引擎的最简单明了的词语。
    #导入jieba分词工具包
    import jieba
    
    #随便创建一句话
    words = '哈工大材料科学与工程学院焊接技术与工程专业的学生'
    
    #精确模式切分
    jieba.lcut(words)
    #['哈工大', '材料科学', '与', '工程学院', '焊接', '技术', '与', '工程', '专业', '的', '学生']
    
    #全模式切分
    jieba.lcut(words,cut_all = True)
    #['哈工大','工大','材料','材料科','材料科学','科学','与','工程','工程学','工程学院','学院','焊接',
    # '技术','与','工程','专业','的','学生']
    
    #搜索引擎模式切分
    jieba.lcut_for_search(words)
    #['工大','哈工大','材料','科学','材料科','材料科学','与','工程','学院','工程学','工程学院','焊接',
    # '技术','与','工程','专业','的','学生']
    
    #我们也可以向jieba添加新的词语
    jieba.add_word('材料科学与工程学院')
    jieba.add_word('焊接技术与工程专业')
    
    #再使用jieba的精确模式对词语进行切分
    jieba.lcut(words)
    #['哈工大', '材料科学与工程学院', '焊接技术与工程专业', '的', '学生']
    

    相关文章

      网友评论

          本文标题:第一节:Jieba分词

          本文链接:https://www.haomeiwen.com/subject/omkpxktx.html