美文网首页
pyhanlp 实体命名识别

pyhanlp 实体命名识别

作者: lanlantian123 | 来源:发表于2018-11-15 13:38 被阅读0次

    对于分词而言,命名实体识别是一项非常重要的功能,当然发现新词同样重要(这部分内容被我放在之后的“提取关键词、短语提取与自动摘要、新词识别”与再之后的案例中了。

    首先是一个简单的例子,展示一下命名实体识别的效果。之后是正式内容:

    简单的展示例子

    正式内容

    中国人名识别

    说明

    目前分词器基本上都默认开启了中国人名识别,比如HanLP.segment()接口中使用的分词器等等,用户不必手动开启;上面的代码只是为了强调。

    有一定的误命中率,比如误命中关键年,则可以通过在data/dictionary/person/nr.txt加入一条关键年 A 1来排除关键年作为人名的可能性,也可以将关键年作为新词登记到自定义词典中。

    如果你通过上述办法解决了问题,欢迎向我提交pull request,词典也是宝贵的财富。

    建议NLP用户使用感知机或CRF词法分析器,精度更高。

    算法详解

    《实战HMM-Viterbi角色标注中国人名识别》

    音译人名识别

    说明

    目前分词器基本上都默认开启了音译人名识别,用户不必手动开启;上面的代码只是为了强调。

    算法详解

    《层叠隐马模型下的音译人名和日本人名识别》

    日本人名识别

    说明

    目前标准分词器默认关闭了日本人名识别,用户需要手动开启;这是因为日本人名的出现频率较低,但是又消耗性能。

    算法详解

    《层叠隐马模型下的音译人名和日本人名识别》

    地名识别

    说明

    目前标准分词器都默认关闭了地名识别,用户需要手动开启;这是因为消耗性能,其实多数地名都收录在核心词典和用户自定义词典中。

    在生产环境中,能靠词典解决的问题就靠词典解决,这是最高效稳定的方法。

    建议对命名实体识别要求较高的用户使用感知机词法分析器。

    算法详解

    《实战HMM-Viterbi角色标注地名识别》

    机构名识别

    说明

    目前分词器默认关闭了机构名识别,用户需要手动开启;这是因为消耗性能,其实常用机构名都收录在核心词典和用户自定义词典中。

    HanLP的目的不是演示动态识别,在生产环境中,能靠词典解决的问题就靠词典解决,这是最高效稳定的方法。

    建议对命名实体识别要求较高的用户使用感知机词法分析器。

    算法详解

    《层叠HMM-Viterbi角色标注模型下的机构名识别》

    地名识别

    说明

    目前标准分词器都默认关闭了地名识别,用户需要手动开启;这是因为消耗性能,其实多数地名都收录在核心词典和用户自定义词典中。

    在生产环境中,能靠词典解决的问题就靠词典解决,这是最高效稳定的方法。

    建议对命名实体识别要求较高的用户使用感知机词法分析器。

    算法详解

    《实战HMM-Viterbi角色标注地名识别》

    URL 识别

    自动识别URL,该部分是在demo中发现的,但是原作者并没有在文档中提到这个,该部分可以发现URL,测试发现其他分类器应该是默认不开启这个的,而且config中并没有开启该功能的选项,因此这应该是一个额外的类。我建议如果有需要的,你可以尝试先利用URLTokenizer获取URL,然后添加进用户词典。或者直接使用其他工具或者自定义函数解决该问题。

    文章来源于Font Tian的博客

    相关文章

      网友评论

          本文标题:pyhanlp 实体命名识别

          本文链接:https://www.haomeiwen.com/subject/hnhyfqtx.html