美文网首页elasticsearchElasticSearch 深入
ES中文分词器之精确短语匹配(自定义分词器)

ES中文分词器之精确短语匹配(自定义分词器)

作者: YG_9013 | 来源:发表于2017-09-21 17:28 被阅读923次

    楼主在上篇文章中,提出了将词和字分开,用不同的分词器分别构建索引,来解决match_phrase在中文中的短语或者句子匹配问题。详细的内容请看上一篇文章:
    ES中文分词器之精确短语匹配(解决了match_phrase匹配不全的问题)

    为什么要自己写分词器?

    楼主想要一种分词器,分词器完全按照词典分词,只要是词典有的词语,分词器就一定要分出来。测试了两个分词器比如说IK,MMseg,都不能按照楼主的要求分词。

    MMSeg有考虑到词频,即使使用mmseg_max_word,也不能完全按照词典分词。

    IK理论上是按照词典分词的,但是经测试,还是发现了些问题。比如说“一群穆斯林聚在一起”,单独用这句话测试,“穆斯林”可以分出,而这句话放入一篇文章中,却无法分出“穆斯林”。

    楼主是用ik和standard对比命中量发现不一致,导出不一致数据后,才发现的这个问题(ik和mmseg都修改了源码,过滤掉中文之间的特殊符号,因此不存在词语中间有特殊符号standard可以分出,ik分不出而导致的不一致情况)。

    没办法了,自己写一个吧。

    ES自定义分词器

    由于ES是采用juice依赖注入的方式,所以要实现一个工厂类和Provider类。

    public class TestAnalyzerProvider extends AbstractIndexAnalyzerProvider<InfosecAnalyzer> {
    
    public TestAnalyzerProvider(IndexSettings indexSettings, Environment env, String name, Settings settings) {
        super(indexSettings, name, settings);
    }
    
    public static AnalyzerProvider<? extends Analyzer> getMaxWord(IndexSettings indexSettings, Environment environment, String s, Settings settings) {
        return  new TestAnalyzerProvider(indexSettings,environment,s,settings);
    }
    
    @Override public InfosecAnalyzer get() {
        return new InfosecAnalyzer();
     }
    }
    
    public class TestTokenizerFactory extends AbstractTokenizerFactory {
    
     public TestTokenizerFactory(IndexSettings indexSettings, Environment env, String name, Settings settings) {
         super(indexSettings, name, settings);
     }
    
    public static TokenizerFactory getMaxWord(IndexSettings indexSettings, Environment environment, String name, Settings settings) {
        return new TestTokenizerFactory(indexSettings,environment,name,settings);
    }
    
    @Override
    public Tokenizer create() {
        return new TestTokenizor();
     }
    }
    

    接下来写自己的插件配置类:

    public class AnalysisTestPlugin extends Plugin implements AnalysisPlugin {
    
    public static String PLUGIN_NAME = "analysis-test;
    
    @Override
    public Map<String, AnalysisModule.AnalysisProvider<TokenizerFactory>> getTokenizers() {
        Map<String, AnalysisModule.AnalysisProvider<TokenizerFactory>> extra = new HashMap<>();
    
        extra.put("test_max_word", TestTokenizerFactory::getMaxWord);
    
        return extra;
    }
    
    @Override
    public Map<String, AnalysisModule.AnalysisProvider<AnalyzerProvider<? extends Analyzer>>> getAnalyzers() {
        Map<String, AnalysisModule.AnalysisProvider<AnalyzerProvider<? extends Analyzer>>> extra = new HashMap<>();
    
        extra.put("test_max_word", TestAnalyzerProvider::getMaxWord);
    
        return extra;
    }
    }
    

    因为我们只需要按照词典分词,所以这边只有一种最大分词模式,test_max_word。接下来就是Analyzer 和Tokenizor。

    public class TestAnalyzer extends Analyzer {
    
    public TestAnalyzer(){
        super();
    }
    @Override
    protected TokenStreamComponents createComponents(String fieldName) {
        Tokenizer _TestTokenizer = new TestTokenizor();
        return new TokenStreamComponents(_TestTokenizer);
    }
    }
    
    
    public class TestTokenizor extends Tokenizer {
    //词元文本属性
    private final CharTermAttribute termAtt;
    //词元位移属性
    private final OffsetAttribute offsetAtt;
    //词元分类属性(该属性分类参考org.wltea.analyzer.core.Lexeme中的分类常量)
    private final TypeAttribute typeAtt;
    //记录最后一个词元的结束位置
    private int endPosition;
    
    private TestSegmenter test =null;
    
    public InfosecTokenizor(){
        super();
        offsetAtt = addAttribute(OffsetAttribute.class);
        termAtt = addAttribute(CharTermAttribute.class);
        typeAtt = addAttribute(TypeAttribute.class);
    
        test = new TestSegmenter(input);
    }
    
    @Override
    public boolean incrementToken() throws IOException {
        clearAttributes();
        Word word = test.getNext();
        if(word != null) {
            termAtt.copyBuffer(word.getSen(), word.getWordOffset(), word.getLength());
            offsetAtt.setOffset(word.getStartOffset(), word.getEndOffset());
            typeAtt.setType(word.getType());
            return true;
        } else {
            end();
            return false;
        }
    }
    
    public void reset() throws IOException {
        super.reset();
        //setReader 自动被调用, input 自动被设置。
        test.reset(input);
    }
    }
    

    自定义分词器主要操作的是incrementToken方法,每次从TestSegmenter中取出一个词,如果改词存在,设置改词的token属性,返回true,即还有下一个token。如果改词不存在,返回false,标志着没有数据了,结束分词。

    自定义分词的详细内容

    由于代码太多了,这里就不一一贴出,只介绍下算法思想。

    匹配类型

    1)不匹配
    2)前缀
    3)匹配
    4)匹配且是前缀
    

    算法思想

    先将数据分类组装成句子,然后经过句子处理器将句子分为多个word,存入queue中,再由increateToken()方法依次取出。

    组装句子

    依次扫描,将同类的数据组装成句子。比如说“你好哈233节日,快乐!233dad”,扫描第一个字符发现是中文,则继续向下扫描,一直扫描到‘2’,发现‘2’不是中文,则将“你好哈”组成句子交给句子处理器处理,将处理结果放入queue中。继续扫描,遍历到‘节’,发现‘节’不是数组,则将“233”组成一个word,放入queue。继续扫描,将“节”,“日”依次放入句子中,扫描到“,”,因为要和standard 对比效果,所以我在代码中过滤了中文间所有的符号,忽略“,”继续扫描,依次将“快”“乐”存入句子。后面类似处理即可。

    句子分词

    依次扫描句子,如果相邻的数据可以组装成一个词,则将词放入queue中,继续遍历下一个。例如“节日快乐”,分词时首先扫描“节”,在词典中查询“节”,发现“节”是一个前缀,则继续扫描“日”,发现“节日”是一个词匹配,且是一个前缀,则将“节日”存入queue中,继续扫描“节日快”,发现“节日快”是一个前缀,继续扫描“节日快乐”,发现“节日快乐”仅是一个词匹配,则将“节日快乐”存入queue中,结束从“节”开始的扫描。接下来按照上述方法从“日”字开始扫描。依次处理完整个句子。

    词典

    词典采用树的结构,比如说“节日愉快”,“节日快乐”和“万事如意”这三个词,在词典中如下表示:

    词典结构

    查找时,记录上一次前缀匹配的DicSegment,在前缀的DicSegment中,直接查找当前扫描字符,可以加快匹配速度。

    比如说已经匹配到了”节日快“这个前缀,在匹配”节日快乐“时,直接在”快“对应的DicSegment中查找,这样就不用再次匹配”节日“两个字符。

    问题

    测试的过程中同样的发现了一些问题,比如说:

    原文:长白山脉
    test分词:长白 1 长白山 2 长白山脉 3 白山4 山脉5
    查找词语:长白山
    test分词:长白 1 长白山 2 白山 3
    

    通过分词可以看出在“长白山脉”中查询不到“长白山”的。问题在于match_phrase的限制,长白山的分词顺序在原文构建索引时的位置不一样,中间多出了一个“长白山脉”。

    解决方案:

    不能匹配的原因是,查找词语在原文中和后面的字组成了词语。用最小粒度分词即可解决。也就是说只用长度为2和3的词语。不存在长度为4的词语,所以一个词长度为3时,在原文中不会和后面的数据组成词。当词的长度为2时,和后面的一个字匹配,可以组成一个长度为3的词,按照我们分词的规则,是先分出两个字的词,再分出三个字的词,所以,两个字的词是可以匹配的到的。

    相关文章

      网友评论

      • 电原:能分享代码吗?:blush:
        YG_9013:@电原 不好意思,这个目前还不能分享代码

      本文标题: ES中文分词器之精确短语匹配(自定义分词器)

      本文链接:https://www.haomeiwen.com/subject/mtrtextx.html