对网络爬虫与搜索引擎的理解

作者: 乖乖果效36 | 来源:发表于2019-07-05 18:02 被阅读0次

对网络爬虫与搜索引擎的理解
网络爬虫-HTML结构
什么是网络爬虫，为什么选择Python做网络爬虫？
为什么要用Python写网络爬虫？而不用其他的编程语言呢？
爬虫
Py爬虫2：分类及robots协议
2018-10-07
爬虫-原理和流程
做爬虫，不了解这些基本等于白做
搜索引擎工作原理解析

一、网络爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。简单来讲，它是一种可以在无需人类干预的情况下自动进行一系列web事务处理的软件程序。web爬虫是一种机器人，它们会递归地对各种信息性的web站点进行遍历，获取第一个web页面，然后获取那个页面指向的所有的web页面，依次类推。因特网搜索引擎使用爬虫在web上游荡，并把他们碰到的文档全部拉回来。然后对这些文档进行处理，形成一个可搜索的数据库。简单来说，网络爬虫就是搜索引擎访问你的网站进而收录你的网站的一种内容采集工具。
例如：百度的网络爬虫就叫做BaiduSpider。

image

二、网络爬虫基本原理

网络 < --- > 爬虫 < --- > 网页内容库 < --- > 索引程序 < --- > 索引库 < --- > 搜索引擎 < --- > 用户

image

三、爬虫程序需要注意的地方

1、链接提取以及相对链接的标准化

爬虫在web上移动的时候会不停的对HTML页面进行解析，它要对所解析的每个页面上的URL链
接进行分析，并将这些链接添加到需要爬行的页面列表中去

2、避免环路的出现
web爬虫在web上爬行时，要特别小心不要陷入循环之中，至少有以下三个原因，环路对爬虫来说是有害的。

他们会使爬虫可能陷入可能会将其困住的循环之中。爬虫不停的兜圈子，把所有时间都耗费在不停获取相同的页面上。
爬虫不断获取相同的页面的同时，服务器段也在遭受着打击，它可能会被击垮，阻止所有真实用户访问这个站点。
爬虫本身变的毫无用处，返回数百份完全相同的页面的因特网搜索引擎就是这样的例子。
同时，联系上一个问题，由于URL“别名”的存在，即使使用了正确的数据结构，有时候也很难分辨出以前是否访问过这
个页面，如果两个URL看起来不一样，但实际指向的是同一资源，就称为互为“别名”。

3、标记为不爬取

4、避免环路与循环方案

5、规范化URL

6、广度优先的爬行

以广度优先的方式去访问就可以将环路的影响最小化。

7、节流

限制一段时间内爬虫可以从一个web站点获取的页面数量，也可以通过节流来限制重复页面总数和对服务器访问的总数。

8、限制URL的大小

如果环路使URL长度增加，长度限制就会最终终止这个环路

9、URL黑名单

10、人工监视

四、搜索引擎优化（SEO）

1、内部优化

突出重要内容
合理的title、description和keywords
虽然现在搜索对这三项的权重慢慢减小，但还是希望能够合理的写好他们，只写有用的东西，不要在这里写小说，要表达重点。
title：只强调重点即可，重要关键词出现不要超过2次，而且要靠前，每个页面title要有所不同description：把网页内容高度概括到这里，长度要合理，不可过分堆砌关键词，每个页面description要有所不同，* * * keywords：列举出几个重要关键词即可，也不可过分堆砌。
语义化书写HTML代码，符合W3C标准
对于搜索引擎来说，最直接面对的就是网页HTML代码，如果代码写的语义化，搜索引擎就会很容易的读懂该网页要表达的意思。
利用布局，把重要内容HTML代码放在最前
搜索引擎抓取HTML内容是从上到下，利用这一特点，可以让主要代码优先读取，让爬虫最先抓取
重要内容不要用JS输出
爬虫不会读取JS里的内容，所以重要内容必须放在HTML里
尽少使用iframe框架
搜索引擎不会抓取到iframe里的内容，重要内容不要放在框架中。
为图片加上alt属性
alt属性的作用是当图片无法显示时以文字作为代替显示出来，对于SEO来说，它可以令搜索引擎有机会索引你网站的图片。
需要强调的地方可以加上title属性
在进行SEO优化时，适合将alt属性设置为图片本来的含义，而将 ttitle属性为设置该属性的元素提供建议性的信息。
为图片加上长宽
图片大的会排在前面一点。
保留文字效果
如果需要兼顾用户体验和SEO效果，在必须用图片的地方，例如个性字体的标题，我们可以利用样式控制，让文本文字不会出现在浏览器上，但在网页代码中是有该标题的。
注意：不可使用display:none;的方法让文字隐藏，因为搜索引擎会过滤掉display:none;里边的内容，就不会被蜘蛛检索了。
提高网站速度
网站速度是搜索引擎排序的一个重要指标
对于指向外部网站的链接要使用rel="nofollow"属性告诉爬虫不要去爬其他的页面