从原理角度理解 SEO
搜索引擎组成部分
- 爬取 —— 若干爬虫定期访问各种网站。
- 建立索引 —— 将爬取的结果解析处理后,用一种利于搜索的方式归类存放起来。
- 返回结果 —— 拆解用户搜索条件,找到合适的页面返回给用户。
PageRank
即对返回给用户的搜索网页结果进行排名的算法。PageRank 算法的本质,是利用网页之间的关联关系来确定网页的影响力权重。
在实际搜索的时候,需要做到两个因素的权衡:一个是网页影响力,还有一个是网页与搜索关键词的接近程度。
不同搜索服务的算法不同,但都是立足于做到这两个基本因素的制衡。
SEO 相关技术
SEO 可以通过正当技术途径来实现,这种方式叫做白帽。反之也可以通过作弊、欺骗的手段来骗过搜索引擎,这叫做黑帽。
黑帽法举例:
- 关键词堆砌,大量放置与网页内容无关的关键字,如此就增加了相关性。
- 链接农场,将网页链接放到很多本不该外链的网站上,如此就增加了权重。
SEO 优化方式
- 通过 HTML 的 keywords meta 标签、description 标签、title 标签。
- 通过外部友情链接。
roberts.txt 是搜索服务爬虫之间约定俗成的文件,几乎所有搜索引擎都会遵守它。它会告诉爬虫哪些网站可以/不可以爬取本网站中的那些路径。其实就是个说明文件,用来传递信息给搜索引擎爬虫。另外也可以通过以下两种方式告诉爬虫行为。
<meta name="robots" content="noindex,nofollow" />
<a href="http://www.another-website.com/" rel="nofollow">另一个站点</a>
类似 roberts.txt,网站提供一个 sitemap.xml 网站地图文件来告诉搜索引擎爬虫页面的整体结构,让搜索引擎爬取更有针对性、更具效率。参考 B 站的配置文件 https://www.bilibili.com/sitemap.xml。也主动给搜索引擎上报网站地图的变更,这样搜索引擎可以更快的收录到最新的数据。
既然做了 SEO 就自然想知道它的效果如何。这时候就有了像百度统计这样的网站。它会为网站生成一段 JavaScript 代码嵌入到网页让网页进行访问信息的上报。(其实就是埋点)
网友评论