分词练习

作者: hai_king | 来源:发表于2018-05-27 23:07 被阅读0次

一、jieba分词
1.在cmd中安装结巴分词

python setup.py install

并在python环境下输入

import jieba

没有出现报错,故判断为成功安装

2.安装pycharm

3.进行分词测试
个人通过pycharm在jieba目录下建立文件名为2.py 的文件,并在文件中输入测试代码

import jieba
seg_list = jieba.cut("我来到北京清华大学",cut_all=True)
print ("Full Mode:","/ ".join(seg_list)) #全模式
seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print ("Default Mode:", "/ ".join(seg_list)) #精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") #默认是精确模式
print (", ".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") #搜索引擎模式
print(", ".join(seg_list))

cmd中执行指令:

python 2.py

结果如下:


4.自定义词典
a.创建词典


b.添加词典
代码如下:

import jieba
test_sent = ("我来到北京清华大学,他来到了网易杭研大厦,小明硕士毕业于中国科学院计算所,后在日本京都大学深造")
jieba.load_userdict("mydict.txt")
words = jieba.cut(test_sent)
print('/'.join(words))

结果如下



通过自定义词典对分词结果进行了修订

c.动态词典
代码如下:

import jieba
test_sent = ("我来到北京清华大学,他来到了网易杭研大厦,小明硕士毕业于中国科学院计算所,后在日本京都大学深造")
jieba.add_word('我来到')
words = jieba.cut(test_sent)
print('/'.join(words))

结果如下:


二、NLPIR在线分词工具
1.打开语义分析系统



分词提取如下:


词频统计如下:


关键词提取如下:


三、中文在线抽词-PullWord
它基于词语出现的评率对文字进行了分词处理,相比于前两种分词工具,它的分词结果较不直观。


相关文章

  • 分词练习1——分词工具包

    关于分词工具包的体验:分词练习2——分词体验 现有的分词工具包 (1)NLPIR NLPIR汉语分词系统,又名IC...

  • 分词练习

    使用ICTCLAS(NLPIR)在线分词工具和jieba分词组件进行分词练习。 一. ICTCLAS 1.简介 汉...

  • 分词练习2——分词体验

    接分词练习1——分词工具包 分词效果尝试 接下来我将体验NLPIR和jieba分词的效果,其中,NLPIR使用在线...

  • 分词练习

    一、实验目标 尝试使用jieba对《龙族》进行分词,并进行分词效果比较分析 二、使用工具 在线分词工具、jieba...

  • 分词练习

    1.常用的分词工具包 perminusminusStanford 汉语分词工具哈工大语言云ICTCLAS——Ans...

  • 分词练习

    在本次分词练习中,使用文本如下: 菊外人指不知道王菊是谁,也没看过创造101,但是已经被给王菊投票相关信息包围的人...

  • 分词练习

    一、使用jieba进行分词1. 中文分词(Chinese Word Segmentation)指将一个汉字序列切分...

  • 分词练习

    一、jieba分词1.在cmd中安装结巴分词 python setup.py install 并在python环境...

  • 分词练习

    1、现有的分词工具中科院计算所NLPIRansj分词器哈工大的LTP清华大学THULAC斯坦福分词器Hanlp分词...

  • jieba分词练习

    实验内容: 使用Python分词模块:Jieba,对四川大学公共管理学院2015-2018年308条新闻内容进行分...

网友评论

    本文标题:分词练习

    本文链接:https://www.haomeiwen.com/subject/erlijftx.html