美文网首页
信息检索

信息检索

作者: 猿崛起 | 来源:发表于2018-07-07 18:03 被阅读0次

    #数据收集 

    ## 内部数据收集

    ## 互联网数据收集

    ### 爬虫

    ### 爬虫的工作模式:

    提供一个或若干个初始网页的地址, 获得初始网页上的URL列表,然后在抓取网页的过程中,不断地从当前页面上抽取新的URL放入待爬队列。

    ### 获取新的URL的策略:

    深度优先、广度优先、最佳优先

    ### 已有框架介绍Heritrix

    # 数据存储

    # 数据处理

    ## 信息检索

    ## 基础算法

    PageRank、HITS:

    ## 工具

    elasticsearch

    solr

    ## 扩展:推荐系统

    ## 推荐系统工具:mahout

    相关文章

      网友评论

          本文标题:信息检索

          本文链接:https://www.haomeiwen.com/subject/eawwuftx.html