美文网首页机器学习与数据挖掘
搜索引擎Indri系列:检索 (Retrieval)

搜索引擎Indri系列:检索 (Retrieval)

作者: 我就爱思考 | 来源:发表于2017-02-24 00:06 被阅读0次

    query parameter file 中的参数写在xml格式的文本中。下面详细说明参数的使用方法。

    <parameters>          
        <rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule>  
        <index>/home/Index</index>
        <count>1000</count>
        <query>  
            <number>51</number>  
            <text>#combine(Airbus Subsidies)</text>
            <workingSetDocno>clueweb09-en0000-00-00004</workingSetDocno>    #指定该参数后,query evaluation将在这些文档中进行
            <workingSetDocno>clueweb09-en0000-00-00005</workingSetDocno
            <workingSetDocno>clueweb09-en0000-00-00006</workingSetDocno>
            </query>  
        <query>  
            <number>52</number>  
            <text>#combine(South African Sanctions)</text>
        </query> 
    
        <fbDocs>10</fbDocs>
        <fbTerms>20</fbTerms>
        <fbMu>0</fbMu>
        <fbOrigWeight>0.5</fbOrigWeight>
    
        <trecFormat>true</trecFormat>
        <queryOffset>1</queryOffset>
        <runID>indri_query_test</runID>
    </parameters>  
    

    Retrieval model

    • Indri提供TF-IDF,BM25,Language Model三种检索模型。
    • Language Model提供Jelinek-Mercer,Dirichlet,Two-Stage三种smoothing方法。
    • Indri默认使用Language Model。
    • TF-IDF,BM25通过<baseline>设置,Language Model通过<rule>设置。
    <rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule> #Jelinek-Mercer
    <rule>method:dirichlet,mu:2500</rule> #Dirichlet
    <rule>method:twostage,mu:2500,lambda:0.4</rule> #Two-Stage
    
    <baseline>tfidf,k1:1.2,b:0.75</baseline> # TF-IDF
    <baseline>okapi,k1:1.2, k3:7, b:0.75</baseline> #BM25
    

    注意这里的值均为Indri默认值。

    Feedback Model

    • Indri的pseudo-relevance feedback model 是依据 (LavrenkoCroft, 2001)中的模型实现的。
    • 只有TF-IDF和Language Model支持feedback,BM25不支持。
    • 参数说明:
     fbDocs:指定用于Feedback Model的文档数,整型。
    fbTerms:指定用于Feedback Model的词数,整型。
    fbMu:Feedback Model中会使用Language Model进行第一次检索,这里的mu值就是Language Model的参数,默认为0,浮点型。
    fbOrigWeight:指定原查询的词与扩展的词的权重。默认为0.5,浮点型。
    

    参考文献:

    1. https://sourceforge.net/p/lemur/wiki/IndriRunQuery/
    2. http://lemur.sourceforge.net/indri/IndriRunQuery.html
    3. https://sourceforge.net/p/lemur/wiki/Indri%20Retrieval%20Model/
    4. http://lemur.sourceforge.net/indri/IndriParameters.html

    相关文章

      网友评论

        本文标题:搜索引擎Indri系列:检索 (Retrieval)

        本文链接:https://www.haomeiwen.com/subject/hqjiwttx.html