对于百度和谷歌来说,搜索引擎的工作原理几乎差不多。因为谷歌在中国被禁用,所以国内搜索一般都是百度。
搜索引擎的工作原理其实很简单,无非就是四个部分,如下图:
什么是搜索引擎蜘蛛(baiduspider),什么是爬虫程序?
搜索引擎蜘蛛其实就是百度用来浏览用户在互联网中发布的信息,然后把这些信息抓取到搜索引擎的服务器上,然后建立索引库等,我们可以把搜索引擎蜘蛛当做一个用户,然后这个用户来访问我们的网站,觉得我们比较好的内容保存下来放在自己电脑上。
搜索引擎蜘蛛是怎样抓取网页的呢?
发现某一个链接-下载这一个网页-加入到临时库-提取网页中的链接-再下载网页-循环
首先搜索引擎的蜘蛛需要去发现链接,一是百度蜘蛛自己发现,二是将自己的网站通过百度站长提交。搜索引擎发现这个链接后会把这个网页下载下来并且存入到临时库中,于此同时,蜘蛛会提取这个页面的所有链接,然后就是循环。
搜索引擎蜘蛛抓取网页有规律吗?
答案是有!如果蜘蛛胡乱的抓取网页,那么互联网上的网页每天增加无数个,蜘蛛无法全部抓取。
蜘蛛抓取网页策略1:深度优先
简单来说就是搜索引擎蜘蛛在一个页面发现一个链接然后顺着这个链接爬下去,然后下一个页面又发现一个链接继续顺着爬下去且全部抓取
蜘蛛抓取网页策略2:宽度优先
宽度优先就是搜索引擎蜘蛛先把这个页面的链接抓取一遍,然后再抓取下一个页面的全部链接。其实就是大家常说的扁平化结构,网页层度不能太多,不然会影响收录。
蜘蛛抓取网页策略3:权重优先
如果说宽度优先比深度优先好,其实也不是绝对的,搜索引擎蜘蛛一般都是两种抓取策略一起用,也就是深度优先+宽度优先,并且在使用这两种策略抓取的时候,要参照这条链接的权重,如果说这条链接还不错的话就采用深度优先,如果说这条链接的权重很低的话就采用宽度优先。
搜索引擎蜘蛛怎样知道这条链接的权重呢?
1.层次的多与少;2.这个链接的外链多少与质量
蜘蛛抓取网页策略4:重访抓取
比如昨天搜索引擎蜘蛛来抓取了我们的网页,而今天我们在这个网页又加了新的内容,那么搜索引擎蜘蛛今天又来抓取新的内容,这就是重访抓取。重访也分为两个:1.全部重访:指的是蜘蛛上次抓取的链接,然后这个月的某一天全部重新去访问抓取一次。2.单个访问:一般都是针对某个页面更新的频率比较快比较稳定的页面,如果说我们有一个页面一个月也不更新一次,那么那么搜索引擎蜘蛛连续几天过来都是这样,后面就不会来了,会隔一段时间再来,比如一个月后。
数据分析系统-处理搜索引擎抓取回来的网页
1.把html代码全部删掉,提取出内容
2.留下网页的主题内容,删掉没用的内容
3.删除重复的网页与内容
4.提取出正文的内容,,然后把内容分成N个词语,然后排列出来,存入索引库,同时也会计算这个词在页面出现了多少次
5.链接分析:查询这个页面的反向链数量,导出链接有多少含内链,然后给这个页面多少权重。
数据索引系统
进行了以上步骤之后,搜索引擎就会把这些处理好的信息放到搜索引擎的索引库中。
网友评论