美文网首页搜索引擎入门
搜索学习基础--分词器的使用

搜索学习基础--分词器的使用

作者: _时间海 | 来源:发表于2018-06-08 09:52 被阅读0次

    代码实现倒排索引这节中,我们的分词方式是对文本按空格分词。而在我们实际过程中,我们对分词的要求是苛刻的,我们会在不同的场景下使用不同的分词器。现在,我们先使用标准分词器StandardAnalyzer这个工具来进行分词的测试。

    • 首先我们需要引入jar包,这是一个Lucene全文检索引擎中自带的分词器.

        <dependency>
                 <groupId>org.apache.lucene</groupId>
                  <artifactId>lucene-analyzers-common</artifactId>
                  <version>4.7.2</version>
        </dependency>  
      
    • 简单的使用

        import org.apache.lucene.analysis.Analyzer;
        import org.apache.lucene.analysis.TokenStream;
        import org.apache.lucene.analysis.core.SimpleAnalyzer;
        import org.apache.lucene.analysis.standard.StandardAnalyzer;
        import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
        import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
        import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
        
        import java.io.IOException;
        import java.io.StringReader;
        
        /**
         * created by yuyufeng on 2017/11/9.
         */
        public class LearnAnalyzer {
            public static void main(String[] args) {
                // 构建分词器
                Analyzer analyzer = new StandardAnalyzer();
        
                // 获取Lucene的TokenStream对象
                TokenStream ts = null;
                try {
                    ts = analyzer.tokenStream("myfield", new StringReader(
                            "这是一个分词的例子,我们来使用一下试试。 Let's use it."));
                    // 获取词元位置属性
                    OffsetAttribute offset = ts.addAttribute(OffsetAttribute.class);
                    // 获取词元文本属性
                    CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);
                    // 获取词元文本属性
                    TypeAttribute type = ts.addAttribute(TypeAttribute.class);
        
                    // 重置TokenStream(重置StringReader)
                    ts.reset();
                    // 迭代获取分词结果
                    while (ts.incrementToken()) {
                        System.out.println(offset.startOffset() + " - " + offset.endOffset() + " : "
                                + term.toString() + " | " + type.type());
                    }
                    // 关闭TokenStream(关闭StringReader)
                    ts.end(); // Perform end-of-stream operations, e.g. set the final offset.
        
                } catch (IOException e) {
                    e.printStackTrace();
                } finally {
                    // 释放TokenStream的所有资源
                    if (ts != null) {
                        try {
                            ts.close();
                        } catch (IOException e) {
                            e.printStackTrace();
                        }
                    }
                }
            }
        }
      

    运行结果

    0 - 1 : 这 | <IDEOGRAPHIC>
    1 - 2 : 是 | <IDEOGRAPHIC>
    2 - 3 : 一 | <IDEOGRAPHIC>
    3 - 4 : 个 | <IDEOGRAPHIC>
    4 - 5 : 分 | <IDEOGRAPHIC>
    5 - 6 : 词 | <IDEOGRAPHIC>
    6 - 7 : 的 | <IDEOGRAPHIC>
    7 - 8 : 例 | <IDEOGRAPHIC>
    8 - 9 : 子 | <IDEOGRAPHIC>
    10 - 11 : 我 | <IDEOGRAPHIC>
    11 - 12 : 们 | <IDEOGRAPHIC>
    12 - 13 : 来 | <IDEOGRAPHIC>
    13 - 14 : 使 | <IDEOGRAPHIC>
    14 - 15 : 用 | <IDEOGRAPHIC>
    15 - 16 : 一 | <IDEOGRAPHIC>
    16 - 17 : 下 | <IDEOGRAPHIC>
    17 - 18 : 试 | <IDEOGRAPHIC>
    18 - 19 : 试 | <IDEOGRAPHIC>
    21 - 26 : let's | <ALPHANUM>
    27 - 30 : use | <ALPHANUM>
    

    StandardAnalyzer是一个标准的分词器,它以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符。而我们的中文词组的分词显然不同。所以,对于中文的分词,我们常用的有IK分词器

    <dependency>
      <groupId>com.janeluo</groupId>
      <artifactId>ikanalyzer</artifactId>
      <version>2012_u6</version>
    </dependency>
    

    上面的代码修改分词器的实现:
    Analyzer analyzer = new IKAnalyzer(true);

    分词结果
    0 - 2 : 这是 | CN_WORD
    2 - 4 : 一个 | CN_WORD
    4 - 6 : 分词 | CN_WORD
    6 - 7 : 的 | CN_WORD
    7 - 9 : 例子 | CN_WORD
    10 - 12 : 我们 | CN_WORD
    12 - 14 : 来使 | CN_WORD
    14 - 17 : 用一下 | CN_WORD
    17 - 19 : 试试 | CN_WORD
    21 - 24 : let | ENGLISH
    25 - 26 : s | ENGLISH
    27 - 30 : use | ENGLISH
    31 - 34 : it. | LETTER

    显然,这个是中英文分词的,相比StandardAnalyzer更适合我们日常使用

    常见的分词器

    名称 分词规则 备注
    WhitespaceAnalyzer 以空格作为切词标准,不对语汇单元进行其他规范化处理。 适用英文
    SimpleAnalyzer 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符
    StopAnalyzer 停顿词分析器会去除一些常有a,the,an等等,也可以自定义禁用词
    StandardAnalyzer 标准分析器是Lucene内置的分析器,会将语汇单元转成小写形式,并去除停用词及标点符号
    CJKAnalyzer 中日韩分析器,能对中,日,韩语言进行分析的分词器 对中文支持效果一般
    SmartChineseAnalyzer 对中文支持稍好,但扩展性差,扩展词库,禁用词库和同义词库等不好处理
    IKAnalyzer 支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符优化的词典存储,更小的内存占用。支持用户词典扩展定义 常用
    HanLP HanLP实现了许多种分词算法,每个分词器都支持特定的配置 国产,实现了许多种分词算法,支持自命名体识别等

    相关文章

      网友评论

        本文标题:搜索学习基础--分词器的使用

        本文链接:https://www.haomeiwen.com/subject/leuosftx.html