搜索引擎Indri系列：检索 (Retrieval)

作者: 我就爱思考 | 来源:发表于2017-02-24 00:06 被阅读0次

搜索引擎Indri系列：检索 (Retrieval)
搜索引擎-第一章：搜索引擎和信息检索
搜索引擎indri系列：评价 (Evaluation)
信息检索复习（1）——布尔查询
连接MySQL时报错：Public Key Retrieval
Fine-grained Video-Text Retrieva
搜索引擎Indri系列：安装及使用
搜索引擎Indri系列：建立索引 (Indexing)
IR-chapter1:Boolean retrieval
以太坊源码阅读-eth-filter

query parameter file 中的参数写在xml格式的文本中。下面详细说明参数的使用方法。

<parameters>          
    <rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule>  
    <index>/home/Index</index>
    <count>1000</count>
    <query>  
        <number>51</number>  
        <text>#combine(Airbus Subsidies)</text>
        <workingSetDocno>clueweb09-en0000-00-00004</workingSetDocno>    #指定该参数后，query evaluation将在这些文档中进行
        <workingSetDocno>clueweb09-en0000-00-00005</workingSetDocno
        <workingSetDocno>clueweb09-en0000-00-00006</workingSetDocno>
        </query>  
    <query>  
        <number>52</number>  
        <text>#combine(South African Sanctions)</text>
    </query> 

    <fbDocs>10</fbDocs>
    <fbTerms>20</fbTerms>
    <fbMu>0</fbMu>
    <fbOrigWeight>0.5</fbOrigWeight>

    <trecFormat>true</trecFormat>
    <queryOffset>1</queryOffset>
    <runID>indri_query_test</runID>
</parameters>

Retrieval model

Indri提供TF-IDF，BM25，Language Model三种检索模型。
Language Model提供Jelinek-Mercer，Dirichlet，Two-Stage三种smoothing方法。
Indri默认使用Language Model。
TF-IDF，BM25通过<baseline>设置，Language Model通过<rule>设置。

<rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule> #Jelinek-Mercer
<rule>method:dirichlet,mu:2500</rule> #Dirichlet
<rule>method:twostage,mu:2500,lambda:0.4</rule> #Two-Stage

<baseline>tfidf,k1:1.2,b:0.75</baseline> # TF-IDF
<baseline>okapi,k1:1.2, k3:7, b:0.75</baseline> #BM25

注意这里的值均为Indri默认值。

Feedback Model

Indri的pseudo-relevance feedback model 是依据 (LavrenkoCroft, 2001)中的模型实现的。
只有TF-IDF和Language Model支持feedback，BM25不支持。
参数说明：

 fbDocs：指定用于Feedback Model的文档数，整型。
fbTerms：指定用于Feedback Model的词数，整型。
fbMu：Feedback Model中会使用Language Model进行第一次检索，这里的mu值就是Language Model的参数，默认为0，浮点型。
fbOrigWeight：指定原查询的词与扩展的词的权重。默认为0.5，浮点型。

参考文献：