美文网首页
信息检索报告整理

信息检索报告整理

作者: 不务正业的Yuez | 来源:发表于2016-05-24 07:15 被阅读128次

前言

最近听了业界大佬Maarten的一个关于IR的Talk,如果我没记错,应该和去年在ESSIR上听到的是一样的,不过每次听都有新的收获,将要整理记录如下。

Query Improvement (online)

  1. 主要的目:提供shortcut给用户、处理查询的error
  2. 主要方式:Log analysis (AOL dataset)
  3. 主要途径:
    • Query Auto-Completion (QAC): what users' intent in mind but not clearly expressed
    • Query Suggestion: recommendation, ranking & diversity
    • Query Expansion
    • Query Correction
  4. 关键在于将Query的signals,如clicks, time, news, personal, general, location等信息和query logs相结合

Getting Content (offline)

  1. Crawling中常见的问题:
    • Scale
    • Content selection
    • URL filtering
    • Remove duplicate URLs: exact & near (compare sequences of word, like n-gram words)
    • Spam detection: meaningful expressions, sentiment analysis & supervised learning
    • Aggregation: considering anchor text on the web & information among entities.
    • Inverted index construction: collect -> tokenize -> stopwords -> stem/lemma -> index
    • Temporal IR: info can be images, songs, books, news, webs, videos and apps

Query Understanding (online)

  1. The result of query understanding can be presented on search engine results page (SERP), some contexts should be considered:
    • Search goals? search tasks?
    • Semantic topics?
    • Time-sensitive? location-sensitive?
  2. Classification query based on pre-defined intent is difficult (short & ambiguous): click-though data & session data.
  3. Intent Discovery (Non-predefined)
    • Shifting intents: intents change with time (Radinsky. 2013)
    • Learning to detect intent shifting (Lefortier. 2014)
      • Queries whose intents from non-fresh to fresh
      • More clicks to some links?
  4. Diversity
    • Extrinsic: query with uncertainty
    • Intrinsic: diversity is part of info needs

Ranker (learning to rank)

  1. content-based
  2. structure-based (title, content, tags, time)
  3. based on interaction behaviors (click through, scanning)
  4. docs represented by feature vector

Responsible IR

Privacy, Fairness, Accuracy, Transparency (let the sys explain why)

相关文章

  • 信息检索报告整理

    前言 最近听了业界大佬Maarten的一个关于IR的Talk,如果我没记错,应该和去年在ESSIR上听到的是一样的...

  • 文献检索《第十周笔记》

    文献收集与整理: ①检索信息②收集管理③筛选阅读④整理输出 十大信息源:专利、会议文献、期刊、科技报告、学位论文、...

  • 信息检索综合报告

    赵静2014141093041 **读书笔记:** 1元数据是对信息的陈述,元数据是对某个潜在信息对象做出的陈述。...

  • 2020年03月16日 DF-IDF

    信息检索概述 信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问...

  • 学习笔记_2020.02.23

    信息检索_黄如花 怎样利用信息检索省钱

  • 信息检索

    #师北宸21天写作训练营Vol.1# 信息检索是写作必备的一项技能,是我们建立素材库的基本。 当下的时代,信息传递...

  • 信息检索

    #数据收集 ## 内部数据收集 ## 互联网数据收集 ### 爬虫 ### 爬虫的工作模式: 提供一个或若干个初始...

  • 信息检索

    少数民族文献 方言文献 典藏文献 两会所有资料 雾霾环境信息检索 编 编著 著 专著

  • 信息检索

    今天在网上对某个专题进行文献查找,进行对应的知识点梳理,可惜检索技能不到家,找到的多数是与专题无关的内容,相关的深...

  • 信息检索

    论文文献 浙江图书馆 行业分析报告,统计数据 艾瑞咨询 quest mobile 问题解答 stackoverfl...

网友评论

      本文标题:信息检索报告整理

      本文链接:https://www.haomeiwen.com/subject/ikczrttx.html