分词练习

作者: 恶魔妈妈买面膜hhh | 来源:发表于2018-05-28 08:02 被阅读0次

分词练习1——分词工具包
分词练习
分词练习2——分词体验
分词练习
分词练习
分词练习
分词练习
分词练习
分词练习
jieba分词练习

一、使用jieba进行分词
1. 中文分词(Chinese Word Segmentation)
指将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
2. jieba分词的特点
（1）支持三种分词模式：
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
精确模式：试图将句子最精确地切开，适合文本分析；
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
（2）支持繁体分词
（3）支持自定义词典
（4）MIT 授权协议
3. 安装jieba
在mac系统中打开终端，输入命令 sudo easy_install pip 安装pip

install pip.png 在终端中输入命令 pip install jieba 安装jieba

install jieba.png

4. 不同模式下进行分词
本次分词练习所使用的语段如下：
汽车进口关税的下调，掀起了中国进口车市的降价热潮，更点燃了中国消费者的购买热情。5月22日，国家财政部发布公告，自2018年7月1日起，降低汽车整车及零部件进口关税。消息一出，各大车企纷纷表态，启动价格评估进而作出降价调整，但由于需要具体计算并不是所有车企都给出了明确的价格调整方案。

步骤如下：
在jieba文件夹下建立zrq2.py文件，四种模式分词代码分别如下图所示：

全模式代码.png

精确模式代码.png

默认精确模式代码.png

搜索引擎模式代码.png
在命令行中进入到jieba目录下，输入 python zrq2.py

得到四种模式下的分词结果，分别如下图所示：

全模式.png

精确模式.png

默认精确模式.png

搜索引擎模式.png 结果显示，语段中如“各大”、“车企”及日期都被分开了，因此可以通过添加自定义词典来包含jieba词库中没有的词，保证更高的正确率。

5. 添加自定义词典
a.开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率
b.用法： jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
c.词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
d.词频省略时使用自动计算的能保证分出该词的词频

步骤如下：
（1）在jieba文件夹下新建userdict.text,设置自定义的词，一个词占一行，以utf-8形式保存

userdict.png
（2）在jieba文件夹下新建zrq3.py文件，代码如下：

添加自定义词典代码.png 在命令行中进入到jieba目录下，输入 python zrq3.py，得到如下结果：

自定义词典.png 由图中结果可知，自定义的新词“各大”、“车企”、“5月22日”、“2018年7月1日”均被分成了一个词。

6. 调整词典
使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
添加一个自定义词“进口车市”，对zrq3.py文件中的代码进行修改，如下图所示：

动态添加辞典代码.png
在命令行中进入到jieba目录下，输入 python zrq3.py，得到结果如下：

动态添加词典.png 由图中结果看到，“进口车市”被分成了一个词。

7. 基于 TF-IDF 算法的关键词抽取
引入关键词提取：import jieba.analyse

A. jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
a.sentence 为待提取的文本
b.topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
c.withWeight 为是否一并返回关键词权重值，默认值为 False
d.allowPOS 仅包括指定词性的词，默认值为空，即不筛选
B. jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件

步骤如下：
在jieba文件夹下新建zrq4.py文件，代码如下：

TF-IDF关键词提取代码.png
在命令行中进入到jieba目录下，输入 python zrq4.py，得到结果如下：

TF-IDF关键词提取.png

8. 基于 TextRank 算法的关键词抽取
基于TextRank算法抽取关键词的主调函数是TextRank.textrank函数，主要是在jieba/analyse/textrank.py中实现。其中，TextRank是为TextRank算法抽取关键词所定义的类。类在初始化时，默认加载了分词函数和词性标注函数
基本思想:
a.将待抽取关键词的文本进行分词
b.以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图
c.计算图中节点的PageRank，注意是无向带权图

步骤如下：
在jieba文件夹下新建zrq5.py，代码如下：