2019-04-16-12:39:于公司
午饭吃完了,早上工作没时间学习,早会前看的文章现在继续看完写点东西方便自己今后记忆
当用户在google、baidu等输入一个单词,它们会去排列出一堆你要搜索相关内容的列表,这些列表来于他们自己的服务器上。
那么他们自己的服务器上是如何拿到这些相关网页面的内容的呢?
搜索引擎想要回答用户搜索,首先会把网页存于自己服务器,靠的就是爬虫!!!!!划重点啊!!!!
这里的 爬虫 是友善的爬虫,而非恶意爬虫,所以为了提升网页搜索排名,一般大家都会非常乐意让浏览器的爬虫去爬自己的内容。
比如我们通过语意化标签,在head
上增加meta
上的关键字(keywords)、描述(description)等迎接搜索引擎的爬虫的到访!!!!!
网络爬虫会不停向各种网站发起请求,将网页存储起来。那么它是如何发起请求的呢?
通常做法: 从一个网页出发,利用网页内的各种链接,提取出来,把他们作为下次要请求的对象。
搜索排名
数据结构:反转列表、分数列表(通俗点:给网站打分,一般在0< score <1,用一个浮点小数表示)
这里设计复杂算法等等,感兴趣的可以去自己摸索
其它
假设有A、B两个页面,A页面中嵌套有B页面,如果A页面是一个重要的网页,那么B的重要性也会被提升。这就是友情链接的重要性,而不仅仅只是一个“友情链接”而已。
对于前端来说如何利用这个来做SEO
呢?看前后端分离项目如何做seo
网友评论