一.什么是搜索引擎
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
二.搜索引擎工作原理
1. 抓取页面:
每个独立的搜索引擎都有自己的网页抓取程序(蜘蛛)。爬虫Spider顺着网页中的链接,从一个链接到另一个链接,从一个网站到另一个网站。通过链接连续访问住区更多的页面。呗抓取的页面称之为网页快照。由于互联网中的链接应用很普遍,理论上讲,从一定的网页出发就能搜索绝大多数的网页。
2. 处理页面:
搜索引擎抓取页面后,还要做大量的预处理工作才能提供检索服
务。其中最重要的就是提取关键词,建立索引库和索引,其他还包括去除重复的页面和蜘蛛认为没有意义的页面。然后判断网页类型和分析链接,计算网页的重要度,丰富度等。
3. 提供检索服务
用户利用搜索引擎的搜索框输入想要查询的关键词,搜索引擎在
自己的索引库中找到匹配关键词的所有页面。为了便于用户的判断,除了网页标题和URL之外,还会提供一段来自网页的摘要以及其他信息。
三.搜索引擎工作原理图解
蒙子网络
网友评论