美文网首页
搜索引擎的基本原理

搜索引擎的基本原理

作者: 程sir | 来源:发表于2016-02-02 14:02 被阅读270次

搜索引擎最初阶段:

  • 利用网页爬虫进行抓取,通过网页中的链接层层深入,对网页去掉Tag后进行分词,保存每个单词在网页中的位置……查询时允许多单词,只有所有单词都出现的网页才被搜索出来。没有对搜索的结果进行排序,采用的是被检索时候的自然排序。

基于网页内容的简单的排序(Content-Based Ranking):

  • 单词频度(Word frequency)
    位于查询条件中的单词在文章中出现的次数越多,说明文档的相关度越高
  • 文档位置(Document location)
    搜索单词在网页中的位置,通常,如果一个网页与待搜索的单词相关,则该单词就更有可能在靠近网页开始处的位置出现,或者甚至出现在标题中
  • 单词距离(Word distance)
    如果查询条件中有多个单词,则它们在文档中出现位置应该考的很近

利用外部回指链接(Inbound Link)

  • 简单计数(Simple Count)
    在每个网页上统计链接的数目,并将链接总数作为针对网页的度量,科研论文的评价就经常采用这样的方式
  • PageRank
    • PageRank算法有Google创始人Larry Page发明,基于这一思路的各种变体已被所有大型搜索引擎采用
    • 该算法为每个网页都赋予了一个指示网页重要程度的评价值
    • 网页的重要性是依据指向该网页的所有其他网页的重要性,以及这些网页中所包含的链接数求得的
    • PageRank在理论上是计算某个人在任意次链接点击之后到达某一个网页的可能性(拥有inbound link越多,人们无意间点到这个网页的概率越大)
    • 阻尼因子(damping factor),0.85,用户持续点击每个网页中链接的概率
    • PageRange值(PR值)的计算示例:


      source: "collective intelligence programming"

      A, B, C, D为四个网页,其中B、C、D的PR值已知,分别为0.5、0.7和0.2。同时这三个网页都有一个链接指向A,而B和C还有另外指向其他页面的链接,D只有一个指向A的链接。计算A的PR值的方法为:

每个指向A的网页的PR值除以网页上的链接数,求和后,在乘以阻尼因子0.85,在加上最小值0.15
PR(A)= 0.15 + 0.85 ×(0.5/ 4 + 0.7 / 4 + 0.2 / 1) = 0.575
(由于计算网页的PageRank值需要知道其他指向它的网页的PageRank,因此在最一开始所有的网页都设置一个初始值,然后利用算法迭代计算PR值,得到真实的PR值,在迭代次数较多的情况下,初始值的设置对最后的结果没有影响)

  • 利用链接文本
    针对要指向的网页,在链接中会放入解释链接内容的相对精确的描述

实际应用
实际搜索引擎返回结果时,是综合考虑以上各种方法的结果,进行加权

相关文章

  • SEO优化之前端工程师部分

    seo: 搜索引擎优化,优化网站在搜索引擎中的排名。 搜索引擎基本原理: 搜索引擎蜘蛛会在互联网上的链接爬来爬去,...

  • 【唐山文先生seo】全面挖掘搜索引擎优化的核心机密?

    【唐山文先生seo】全面挖掘搜索引擎优化的核心机密?seo深度解析 做seo的人应该要对搜索引擎的基本原理有一些了...

  • Lucene入门

    参考 Lucene学习总结之一:全文检索的基本原理Lucene就是这么简单Lucene思维导图,让搜索引擎不再难懂...

  • 搜索引擎的基本原理

    搜索引擎最初阶段: 利用网页爬虫进行抓取,通过网页中的链接层层深入,对网页去掉Tag后进行分词,保存每个单词在网页...

  • Python爬虫入门,快速抓取大规模数据

    大到各类搜索引擎,小到日常数据采集,都离不开网络爬虫。爬虫的基本原理很简单,遍历网络中网页,抓取感兴趣的数据内容。...

  • 店主看过来:手淘首页流量匹配的基本原理是什么你知道吗?

    手淘首页流量匹配的基本原理是什么 其实,来自于手淘首页的流量匹配原理非常简单:搜索引擎希望在消费者之前,把需求猜测...

  • 2018-08-26日更

    基本原理任何科学都是包含基本原理的知识组成的。逻辑学的基本原理和人类理性的基本原理是一致的。 同一律 表述:事物只...

  • 逻辑学的基本原理

    01 基本原理 任何科学都是由包含基本原理的知识组成的。 任何科学的基本原理都是这门科学赖以...

  • zxzxzxzxzxzxzx

    搜索引擎怎么用111搜索引擎怎么用111搜索引擎怎么用111搜索引擎怎么用111搜索引擎怎么用111搜索引擎怎么用...

  • SEO学习第二天

    SEO 叫 :搜索引擎优化 即搜索引擎在利用搜索引擎规则来提高网站在搜索引擎中的自然排名 SEM:搜索引擎营销 ...

网友评论

      本文标题:搜索引擎的基本原理

      本文链接:https://www.haomeiwen.com/subject/rcoskttx.html