前期六六seo基础入门教程为同学们介绍了seo常用的专业名词及其作用。本文开始六六开始为大家正式详解一下搜索引擎的工作原理,估计一直看六六seo教程的同学们会有所疑问,为什么在基础入门篇章中后期才开始介绍搜索引擎工作原理呢?这里和大家解释一下原因。现在网上很多seo入门教程对于搜索引擎原理介绍并不是太详解,让很多入门seo的同学即使后期步入了工作岗位对搜索引擎工作原理也仅仅是一种似懂非懂的理解。而seo的概念大家都清楚了,是搜索引擎优化。所以搜索引擎的工作原理我们在前期学习seo时一定要做到理解透彻,切忌不可囫囵掠过。而在基础入门后期才开始详解搜索引擎工作原理是因为在下面介绍时会涉及到前面入门讲过的专业术语。这就好比是组装一个大型模具时,先要了解其组装的零件,再去了解组装的方法和目的一样。下面我们来一起了解搜索引擎工作原理吧!
六六seo基础入门第十四讲:搜索引擎工作原理之爬行和抓取
首先大家先要了解搜索引擎工作原理三部曲:爬行和抓取——预处理——排名展示,本文给大家详解的就是搜索引擎工作原理的爬行和抓取原理。
爬行和抓取是搜索引擎工作的第一步,旨在完成数据收集。爬行和抓取主要是由搜索引擎蜘蛛来完成。工作原理为蜘蛛通过爬行站点链接从而去发现并访问下一页面最终存入搜索引擎数据库中。(因为搜索引擎程序爬取一个网站时,会通过网站首页逐步的爬取其他页面,就好像是蜘蛛爬行在蜘蛛网一样,所以将爬去程序称为蜘蛛)具体步骤如下:
1,搜索引擎蜘蛛
在之前六六seo第十讲给大家介绍了搜索引擎和网站的robots.txt协议,蜘蛛在访问任何网站时,第一步都是先去访问网站根目录下的robots.txt文件,根据协议内容,蜘蛛了解到站长希望哪些页面被爬取,哪些页面不可以爬取,蜘蛛会严格按照robots.txt文件内容来执行。而站长们同样可以通过网站日志(六六seo基础入门第十二讲介绍了网站日志概念)来了解近期爬取过网站的搜索引擎蜘蛛。无论是百度,360,搜狗还是外国的其他搜索引擎,蜘蛛都有其特定的名称。(比如:百度蜘蛛=Baiduspider)方便站长们来辨识搜索引擎。
2,爬取策略。
蜘蛛获取到robots.txt文件后开始爬行网站内容,由于互联网每一天会有非常大量的数据更新,蜘蛛为了大限度的爬取所有新页面。会采取一定的爬取策略。一般分为深度爬取和广度爬取。深度爬取是指蜘蛛沿着首页选取一个二级页面后一直向前爬取,直到后续页面没有跳出链接才会停止。这时蜘蛛会回到首页再选取其他的二级页面重复之前的操作,最终全部爬取之后才会离开。广度爬取是指蜘蛛沿着首页爬取一个二级页面后再回到首页爬取其他的二级页面,等到二级页面全部爬取后再去爬取三级页面。理论上两种方式都是可以爬取网站全部内容。但是在蜘蛛的实际爬取工作时,由于时间有限,数据过于庞大,蜘蛛会将深度爬取和广度爬取混合使用,这样既可以照顾一部分网站的深度页面也可以照顾到大多数网站站点。
3,吸引蜘蛛爬取
上面介绍了蜘蛛爬取策略,我们也了解到了蜘蛛在有限时间内是无法爬取所有的网站数据,那我们的网站如果有了新更新想要蜘蛛尽快访问抓取时,我们应该采取哪些seo优化技术来吸引蜘蛛主动访问呢?
首先在搜索引擎蜘蛛眼里,网站页面也会分为三六九等,越重要的网站它会优先爬取,也就是我们术语中权重越高的网站,蜘蛛越喜欢访问。所以网站和内页的权重越高蜘蛛越喜欢访问。
再有吸引蜘蛛爬取的因素还有页面更新频率和质量,如果蜘蛛来爬取你的网站时,每一次都没有新增页面出现,几次过后蜘蛛对你的网站更新频率有了判定,自然不会经常来爬取,而更新的内容如果过于劣质,蜘蛛会认为你的网站属于垃圾网站,同样也会降低抓取频率。
发布优质外链吸引蜘蛛爬取也是一个非常好的方法,前面已经和大家介绍了外链的概念和作用。蜘蛛会通过爬取外链进而通过链接跟踪进入我们的网站进行爬取。
4,访问地址库
蜘蛛爬取网站链接时为了避免重复爬取,会建立一个访问地址库,分为未访问地址库和已访问地址库。当一个新地址出现后,蜘蛛首先是记录地址后去地址库进行比对。如果地址库内没有此网址,蜘蛛会将此网址划入未访问地址库。反之亦然。之后蜘蛛根据页面的重要性逐一去爬取未访问地址库收录的地址,完成后将此地址划入已访问地址库。
上面就是六六seo基础入门第十四讲,搜索引擎工作原理其中的第一步爬行和抓取原理。了解蜘蛛爬取原理后才可以更好的进行网站优化工作,后面六六会给大家继续介绍预处理原理和排名机制。希望对seoer有所帮助。
网友评论