一、seo搜索引擎优化。
一)SEO的六个环节:
1、关键词分析(也叫关键词定位)
这是进行SEO最重要的一环,关键词分析包括:
①关键词关注量分析
②竞争对手分析
③关键词与网站相关性分析
④关键词布置
⑤关键词排名预测
2、网站架构分析
网站结构符合搜索引擎的爬虫喜好则有利于SEO。网站架构分析包括:
①剔除网站架构不良设计
②实现树状目录结构
③网站导航与链接优化
3、网站目录和页面优化
SEO不止是让网站首页在搜索引擎有好的排名,更重要的是让网站的每个页面都带来流量。
4、内容发布和链接布置。
搜索引擎喜欢有规律的网站内容更新,所以合理安排网站内容的发布日程是SEO的重要技巧之一。链接布置则把整个网站有机地串联起来,让搜索引擎明白每个网页的重要性和关键词,实施的参考是第一点的关键词布置。友情链接战役也是这个时候展开。
5、与搜索引擎对话
在搜索引擎看SEO的效果,通过site:你的域名,知道站点的收录和更新情况。更好地实现与搜索引擎对话,建议采用Google网站管理员工具。
6、网站流量分析
网站流量分析从SEO结果上指导下一步的SEO策略,同时对网站的用户体验优化也有指导意义。流量分析工具建议采用Google流量分析。
二)搜索引擎的组成:
1、抓取网页系统:
--探测系统:蜘蛛。
蜘蛛在互联网上爬行时探测到网站的URL。
--下载系统
把URL所指向的页面利用下载系统下载到搜索引擎的服务器上,然后将页面交给数据分析系统。
2、数据分析系统
--数据分析系统:当数据分析系统从抓取网页系统那获取到被下载的页面,首先进行数据分析去除不相关的文字或网站重复内容。
--数据处理系统:
进行页面文字处理,然后对处理后的页面内容进行判断,是否达到收录标准。达到交给存储系统,没有达到删除。
3、存储数据系统
将收录的页面进行保存,然后定时检查存储的页面是否有更新。
4、缓存系统
存储搜索引擎认为高价值的内容。当用户搜索某个关键词时经常看到收录量有几千万,但搜索引擎显示的只有1000条,这也就是说只有1000条被放在了缓存系统上,用户可以最快速地查找到他们想要的内容。
5、展示系统
用户搜索返回到显示器上的信息。
三)搜索引擎收录原理(简单过程):
1、找到网站的URL并下载页面。
2、判断页面质量是否达到收录标准,是则收录页面,否则删除。
3、判断收录页面是否更新,更新页面快照。
四)搜索引擎收录页面的详细过程(网络爬虫的基本工作流程)
①蜘蛛在整个互联网上爬行遇到一个URL。
②提取URL,根据网站权重和相关性插入到URL队列中。
③对URL解析DNS。
④如果无法解析DNS,则把URL加入到URL队列中。解释成功则进入下一步。
⑤分析URL内容。
蜘蛛先去寻找你网站的robots文件,根据你网站的robots规则判断是否抓取你这个页面。
若robots文件不存在,则会返回一个404错误。搜索引擎会继续抓取你的网站内容。
⑥判断网页是否达到收录标准,如果不符合则把URL加入到URL队列中。如果符合收录标准就下载网页内容。
⑦当搜索引擎拿到下载网页内容后,会提取页面上的URL,继续把URL加入到URL队列中。然后把页面数据,进一步分析。
⑧判断网页内容是否达到收录标准,如果达到收录标准,则把页面提交到数据库,存储到云数据存储硬盘中。如果不符合标准,则删除。
⑨当用户搜索某个关键词时,搜索引擎为了减少查询时间,将一部分相关性比较高的内容放到临时缓存区。
⑩浏览器只将缓存中的一部分显示给用户。
⑪存储在硬盘中的页面,搜索引擎会根据网站权重定时判断页面是否更新,是否达到了放入缓存区的标准,如果搜索引擎在判断是否有更新的同时发现网站页面被删除,或网页达不到被收录的标准也会被删除。
参考文献:
搜索引擎优化的原理是什么
SEO从业者必须了解的搜索引擎工作原理
二、网络爬虫。
一)从爬虫角度对互联网进行划分
可以将互联网的所有网页分为五个部分:
1、已下载未过期网页
2、已下载已过期网页
抓取到的网页实际上是互联网内容的一个镜像和备份,互联网是动态变化的,一部分互联网上的内容已经发生了变化,这时候抓取到的网页就已经过期了。
3、待下载网页
待抓取URL队列中的那些页面
4、可知页面
还没有抓取下来,也没有在待抓取的URL队列中,但是可以通过对已抓取页面或者待抓取URL对应页面进行分析获取到URL,认为是可知网页。
5、不可知网页
爬虫无法直接抓取下载的。
二)爬虫的抓取策略
1、深度优先策略
深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。我们以下面的图为例, 遍历的路径:A-F-G E-H-I B C D。
2、广度优先遍历策略
广度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。还是以上面的图为例,遍历路径:A-B-C-D-E-F G H I
3、反向链接数策略
反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。
在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等于重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。
4、Partial PageRank策略
Partial PageRank算法借鉴了PageRank算法的思想:对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。
如果每次抓取一个页面,就重新计算PageRank值,一种折中方案是:每抓取K个页面后,重新计算一次PageRank值。但是这种情况还会有一个问题:对于已经下载下来的页面中分析出的链接,也就是我们之前提到的未知网页那一部分,暂时是没有PageRank值的。为了解决这个问题,会给这些页面一个临时的PageRank值:将这个网页所有入链传递进来的PageRank值进行汇总,这样就形成了该未知页面的PageRank值,从而参与排序。
5、OPIC策略
该算法实际上也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。
6、大站优先策略
对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。这个策略也因此叫做大站优先策略。
参考文献:
网络爬虫基本原理(一)
网友评论