美文网首页Java
中文分词之Java实现使用IK Analyzer实现

中文分词之Java实现使用IK Analyzer实现

作者: __豆约翰__ | 来源:发表于2018-07-19 10:04 被阅读180次

    IK Analyzer是基于lucene实现的分词开源框架

    需要在项目中引入:
    IKAnalyzer2012FF_u1.jar --- FF 代表for lucene 4.0(four)
    lucene-core-4.0.0.jar

    示例代码如下(使用IK Analyzer):

    package com.haha.test;  
      
    import java.io.IOException;  
    import java.io.StringReader;  
    import org.apache.lucene.analysis.Analyzer;  
    import org.apache.lucene.analysis.TokenStream;  
    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;  
    import org.wltea.analyzer.lucene.IKAnalyzer;  
      
    public class Test2 {  
        public static void main(String[] args) throws IOException {  
            String text="基于java语言开发的轻量级的中文分词工具包";  
            //创建分词对象  
            Analyzer anal=new IKAnalyzer(true);       
            StringReader reader=new StringReader(text);  
            //分词  
            TokenStream ts=anal.tokenStream("", reader);  
            CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);  
            //遍历分词数据  
            while(ts.incrementToken()){  
                System.out.print(term.toString()+"|");  
            }  
            reader.close();  
            System.out.println();  
        }  
      
    }  
    

    运行后结果:

    基于|java|语言|开发|的|轻量级|的|中文|分词|工具包|
    

    相关文章

      网友评论

        本文标题:中文分词之Java实现使用IK Analyzer实现

        本文链接:https://www.haomeiwen.com/subject/lifheftx.html