美文网首页
分词练习

分词练习

作者: 梁下小人 | 来源:发表于2018-05-28 11:52 被阅读0次

    1、现有的分词工具
    中科院计算所NLPIR
    ansj分词器
    哈工大的LTP
    清华大学THULAC
    斯坦福分词器
    Hanlp分词器
    结巴分词
    KCWS分词器(字嵌入+Bi-LSTM+CRF)
    ZPar
    IKAnalyzer
    2、MLPIR与jieba的对比
    首先,用MLPIR进行线上的分词分析。

    分词分析的内容为: 原版文字.png
    而用MLPIR分词得出的结果为: MLPIR分词png
    然后用jieba分词的结果为: jieba源码.png jieba分词.png

    可以看出,MLPIR在分词的同时,把分词结果的词性也同时分离出来,而jieba的分词结果只是单纯的进行了分词;同时,MLPIR与jieba的分词结果也显示了两个分词工具有着不同的词库,例如“六道”在MLPIR的词库中是不存在的,所以它分出了“六”“道”,而jieba这是直接分出了“六道”这个词。
    3、jieba分词练习
    3.1关键词的提取

    源码为: 关键词提取源码.png
    运行结果为: 关键词提取结果.png

    相关文章

      网友评论

          本文标题:分词练习

          本文链接:https://www.haomeiwen.com/subject/djgbjftx.html