美文网首页
中文分词在线工具比较

中文分词在线工具比较

作者: belief_8f6c | 来源:发表于2017-05-15 23:51 被阅读0次
一、现有分词工具包
Paste_Image.png
详情:http://blog.csdn.net/sunfoot001/article/details/51523741
Analyzer在线工具

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。

Paste_Image.png

采用了特有的“正向迭代最细粒度切分算法“,具有50万字/秒的高速处理能力。

采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。

优化的词典存储,更小的内存占用。支持用户词典扩展定义

针对Lucene全文检索优化的查询分析器IKQueryParser;采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。

Analyzer在线工具窗口:
Paste_Image.png
百度在线切词

百度分词算法,实现精确切词匹配。基于主特征空间相似度计算的切分算法及切分框架。构建切分的上下文环境,并且巧妙地把统计特征投影到其主特征空间。(特征空间是由一个矩阵的所有特征向量张成的空间,主特征空间是有该矩阵的主要特征向量张成的空间。相比较特征空间,主特征空间可以覆盖特征空间大部分信息,并且可以辅助相关应用进行有效的降维、除噪和数据变换等),计算相似度,配合主特征空间的维度进行切分。

百度在线切词窗口
Paste_Image.png
由图可知,用户可自行选择切分的精度,其中包括歧义处理、新词识别、多元切分等。

该算法一个核心的要点为主特征空间维度k的确定。换个角度讲,对于给定一个待处理串,如果事先知道切分的片段数,利用一些简单的统计策略如MI已经可以较好的做切分。

该切分算法根据数据分布入手,由切分片段特征展开假设,通过基本token在一定相关语义下统计分布而进行切分。相对基于EM/HMM等模型的无监督切分算法,该方法一个明显的优点是充分考虑了整个切分片段的信息,而不是相邻token之间的统计量;同时,该方法通过空间变换等手段,有效的进行数据除燥等策略,从而是数据分布更趋于真实情况。

同CRF等有监督学习相比,该方法的输入为ngram语言模型,不需人工标注数据 ,同时本方法可以识别新词,这在互联网应用中极具优势。同时针对不同语言不通领域,我们只要提供足够可靠的语言模型就可以在很大程度上解决他们的切分需求。

分词体验
1、Analyzer:
Paste_Image.png
2、百度在线切词工具

原文本:

Paste_Image.png

(1)默认切分:

Paste_Image.png
(2)选择歧义处理: Paste_Image.png
(3)选择歧义处理、新词识别: Paste_Image.png
(4)选择歧义处理、新词识别、多元切分:
Paste_Image.png
3、比较分析

由图可知,Analyzer在线工具本身集合了歧义处理,新词识别,多远切分等功能,分词结果与百度分词工具选择了各项精度所得结果最为接近。下面再来比较新词“蓝瘦香菇”的分词:

Paste_Image.png Paste_Image.png

相关文章

  • 中文分词在线工具比较

    一、现有分词工具包 Analyzer在线工具 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文...

  • 如何在ubuntu使用hanlp

    前言 以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分...

  • 分词练习

    一、实验目标 尝试使用jieba对《龙族》进行分词,并进行分词效果比较分析 二、使用工具 在线分词工具、jieba...

  • 在线中文分词工具分词效果比较——以站长工具在线分词和IK Ana

    一、中文分词 1.含义 中文分词:指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范...

  • jieba 源码解析

    阅读动机 jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细...

  • Python中的jieba 源码解析

    前言 jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细节对...

  • 第3章 中文分词技术

    本章要点: 中文分词的概念与分类 常用分词的技术介绍 开源中文分词工具-Jieba简介 实战分词之高频词提取 中文...

  • Jieba&IK Analyzer——分词工具的比较与使用

    现有的分词工具包概览 现有的分词工具包种类繁多,我选取了几个比较常见的开源中文分词工具包进行了简单的调查。有感兴趣...

  • python笔记 | 舆情分析如何做?

    中文分词原理及分词工具介绍 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切...

  • NLPIR、Jieba中文分词工具比较

    1.中文分词概念 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一...

网友评论

      本文标题:中文分词在线工具比较

      本文链接:https://www.haomeiwen.com/subject/rlrkxxtx.html