Pyhanlp自然语言处理中的新词识别

作者: 惠洋热熔胶网膜 | 来源:发表于2019-02-15 15:09 被阅读23次

Pyhanlp自然语言处理中的新词识别
NLP入门（四）命名实体识别（NER）
自然语言处理基本流程与应用
人工智能|藏头诗|夫妻相|孩子像谁
技能 | 三次简化一张图: 一招理解LSTM/GRU门控机制
命名实体识别(Named EntitiesRecognition
Keras命名体识别（NER）实战---自然语言处理技术（1）
关于NER在简历解析中的应用
学习笔记TF059:自然语言处理、智能聊天机器人
什么是自然语言处理？自然语言处理、智能聊天机器人的简单应用实践

新词发现

本“新词发现”模块基于信息熵和互信息两种算法，可以在无语料的情况下提取一段长文本中的词语，并支持过滤掉系统中已存在的“旧词”，得到新词列表。

调用方法

静态方法

一句话静态调用接口已经封装到HanLP中：

/**

* 提取词语

*

* @param text 大文本

* @param size 需要提取词语的数量

* @return 一个词语列表

*/

public static List<WordInfo> extractWords(String text, int size)

/**

* 提取词语

*

* @param reader 从reader获取文本

* @param size 需要提取词语的数量

* @return 一个词语列表

*/

public static List<WordInfo> extractWords(BufferedReader reader, int size) throws IOException

/**

* 提取词语（新词发现）

*

* @param text 大文本

* @param size 需要提取词语的数量

* @param newWordsOnly 是否只提取词典中没有的词语

* @return 一个词语列表

*/

public static List<WordInfo> extractWords(String text, int size, boolean newWordsOnly)

/**

* 提取词语（新词发现）

*

* @param reader 从reader获取文本

* @param size 需要提取词语的数量

* @param newWordsOnly 是否只提取词典中没有的词语

* @return 一个词语列表

*/

public static List<WordInfo> extractWords(BufferedReader reader, int size, boolean newWordsOnly) throws IOException

调用示例请参考com.hankcs.demo.DemoNewWordDiscover。值得注意的是，在计算资源允许的情况下，文本越长，结果质量越高。对于一些零散的文章，应当合并为整个大文件传入该算法。

高级参数

根据语料的长度或用词的不同，默认的参数有可能不能得到最佳的结果。我们可以通过构造不同的NewWordDiscover调整提取算法。该构造函数如下：

/**

* 构造一个新词识别工具

* @param max_word_len 词语最长长度

* @param min_freq 词语最低频率

* @param min_entropy 词语最低熵

* @param min_aggregation 词语最低互信息

* @param filter 是否过滤掉HanLP中的词库中已存在的词语

*/

public NewWordDiscover(int max_word_len, float min_freq, float min_entropy, float min_aggregation, boolean filter)

其中：

· max_word_len控制识别结果中最长的词语长度，默认值是4；该值越大，运算量越大，结果中出现短语的数量也会越多。

· min_freq控制结果中词语的最低频率，低于该频率的将会被过滤掉，减少一些运算量。由于结果是按照频率排序的，所以该参数其实意义不大。

· min_entropy控制结果中词语的最低信息熵的值，一般取0.5左右。该值越大，越短的词语就越容易被提取出来。

· min_aggregation控制结果中词语的最低互信息值，一般取50到200.该值越大，越长的词语就越容易被提取出来，有时候会出现一些短语。

· filter设为true的时候将使用内部词库过滤掉“旧词”。

网友评论

本文标题：Pyhanlp自然语言处理中的新词识别

本文链接：https://www.haomeiwen.com/subject/rktmeqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Pyhanlp自然语言处理中的新词识别

相关文章