美文网首页机器学习与数据挖掘
搜索引擎Indri系列:检索 (Retrieval)

搜索引擎Indri系列:检索 (Retrieval)

作者: 我就爱思考 | 来源:发表于2017-02-24 00:06 被阅读0次

query parameter file 中的参数写在xml格式的文本中。下面详细说明参数的使用方法。

<parameters>          
    <rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule>  
    <index>/home/Index</index>
    <count>1000</count>
    <query>  
        <number>51</number>  
        <text>#combine(Airbus Subsidies)</text>
        <workingSetDocno>clueweb09-en0000-00-00004</workingSetDocno>    #指定该参数后,query evaluation将在这些文档中进行
        <workingSetDocno>clueweb09-en0000-00-00005</workingSetDocno
        <workingSetDocno>clueweb09-en0000-00-00006</workingSetDocno>
        </query>  
    <query>  
        <number>52</number>  
        <text>#combine(South African Sanctions)</text>
    </query> 

    <fbDocs>10</fbDocs>
    <fbTerms>20</fbTerms>
    <fbMu>0</fbMu>
    <fbOrigWeight>0.5</fbOrigWeight>

    <trecFormat>true</trecFormat>
    <queryOffset>1</queryOffset>
    <runID>indri_query_test</runID>
</parameters>  

Retrieval model

  • Indri提供TF-IDF,BM25,Language Model三种检索模型。
  • Language Model提供Jelinek-Mercer,Dirichlet,Two-Stage三种smoothing方法。
  • Indri默认使用Language Model。
  • TF-IDF,BM25通过<baseline>设置,Language Model通过<rule>设置。
<rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule> #Jelinek-Mercer
<rule>method:dirichlet,mu:2500</rule> #Dirichlet
<rule>method:twostage,mu:2500,lambda:0.4</rule> #Two-Stage
<baseline>tfidf,k1:1.2,b:0.75</baseline> # TF-IDF
<baseline>okapi,k1:1.2, k3:7, b:0.75</baseline> #BM25

注意这里的值均为Indri默认值。

Feedback Model

  • Indri的pseudo-relevance feedback model 是依据 (LavrenkoCroft, 2001)中的模型实现的。
  • 只有TF-IDF和Language Model支持feedback,BM25不支持。
  • 参数说明:
 fbDocs:指定用于Feedback Model的文档数,整型。
fbTerms:指定用于Feedback Model的词数,整型。
fbMu:Feedback Model中会使用Language Model进行第一次检索,这里的mu值就是Language Model的参数,默认为0,浮点型。
fbOrigWeight:指定原查询的词与扩展的词的权重。默认为0.5,浮点型。

参考文献:

  1. https://sourceforge.net/p/lemur/wiki/IndriRunQuery/
  2. http://lemur.sourceforge.net/indri/IndriRunQuery.html
  3. https://sourceforge.net/p/lemur/wiki/Indri%20Retrieval%20Model/
  4. http://lemur.sourceforge.net/indri/IndriParameters.html

相关文章

网友评论

    本文标题:搜索引擎Indri系列:检索 (Retrieval)

    本文链接:https://www.haomeiwen.com/subject/hqjiwttx.html