网页抓取策略和方法

作者: 冰度猎魂 | 来源:发表于2018-12-05 23:32 被阅读0次

网页抓取策略和方法
全程干货 | 解密爬虫抓取、更新网页的策略方法
JAVA抓取网页方法
python爬虫进行Web抓取LDA主题语义数据分析报告
Python实用练手小案例
3种网页抓取方法
SSH框架之Hibernate的查询优化（五）
python几乎无所不能只有你不知道的，如何通过Python玩
python几乎无所不能只有你不知道的，如何通过Python玩
python几乎无所不能只有你不知道的，如何通过Python玩

网页抓取策略

在爬虫系统中，待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题，因为这涉及先抓取哪个页面，后抓取哪个页面。而决定这些URL排列顺序的方法，成为抓取策略。

宽度优先搜索：是指抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单。为覆盖尽可能多的网页，一般使用宽度优先的搜索方法。这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。
深度优先搜索：是指从起始网页开始，选择一个URL进入，分析这个网页中的URL，一个链接一个链接地抓取下去，直到处理完一条路线之后再处理下一条URL的路线。
最佳优先搜索：最佳优先搜索策略按照一定的网页分析算法，预测候选URL与目标网页的相似度，或者主题的相关性，并选取评价最好的一个或几个URL进行抓取。
反向链接数策略：反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。
Partial PageRank策略：Partial PageRank算法借鉴了PageRank算法的思想，对于已经下载的网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的Page Rank值，计算完之后，将待抓取队列中的URL按照PageRank值的大小排列，并按照该顺序抓取页面。

网页抓取的方法

在实际网络爬虫开发过程中，主要有以下3类方法。

分布式爬虫
分布式爬虫主要用于目前互联网中海量URL管理，它包含多个爬虫，每个爬虫需要完成的任务和单个的爬行器类似。它们从互联网上下载网页，并把网页保存在本地的磁盘，从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务，可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中，或者分散在不同的地理位置。
现在比较流行的分布式爬虫是Apache的Nutch。Nutch依赖hadoop运行，hadhoop本身会消耗很多的时间。Nutch是为搜索引擎设计的爬虫，如果不是要做搜索引擎，尽量不要选择Nutch作为爬虫。
Java爬虫
Java爬虫就是用Java开发的抓取网络资源的小程序，常用的工具包括Crawler4j、WebMagic、WebCollector等。这种方法要求使用者对于Java较为熟悉。
非Java爬虫
在非Java语言编写的爬虫中，有很多优秀的，如Scrapy框架。使用框架可以大大提高效率，缩短开发时间。Scrapy是由Python编写的，轻量级的、高层次的屏幕抓取框架，使用起来非常方便。它最吸引人的地方在于它是一个框架，任何使用者都可以根据自己的需求进行修改，并且它具有一些高级函数，可以简化网站抓取的过程。总之，使用Scrapy可以很方便地完成网上数据的采集工作，并能完成大量的工作，而不需要程序开发者自己费大力气去开发。

项目实战

用Python抓去制定的网页

在这个实例中，使用urllib模块提供了读取Web页面数据的接口，人们可以像读取本地文件一样读取www和ftp上的数据。urllib是一个URL处理包，这个包中集合了一些处理URL的模块。

urllib.request模块是用来打开和读取URLs的。
urllib.error模块包含一些由urllib.request产生的错误，可以用try进行捕捉处理。
urllib.parse模块包含一些解析URLs的方法。
urllib.robotparser模块用来解析robots.txt文本文件。它提供了一个单独PobotFileParser类，通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面。

在Python 3中，这个模块的名称是urllib，而Python 2版本中使用的是urllib2 。
下面给出抓取豆瓣首页的代码：

import urllib.request
url = “https://www.douban.com/“
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
data = response.read()
data = data.decode(‘utf-8’)
print(data)

部分结果截图如下：

部分运行结果

下面的代码可以打印抓取网页的各类信息：

print(type(response))
print(response.geturl())
print(response.info())
print(response.getcode())

网友评论

本文标题：网页抓取策略和方法

本文链接：https://www.haomeiwen.com/subject/jpvgcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

网页抓取策略和方法

网页抓取策略

网页抓取的方法

项目实战

用Python抓去制定的网页

相关文章

网页抓取策略和方法

全程干货 | 解密爬虫抓取、更新网页的策略方法

JAVA抓取网页方法

python爬虫进行Web抓取LDA主题语义数据分析报告

Python实用练手小案例

3种网页抓取方法

SSH框架之Hibernate的查询优化（五）

python几乎无所不能只有你不知道的，如何通过Python玩

python几乎无所不能只有你不知道的，如何通过Python玩

python几乎无所不能只有你不知道的，如何通过Python玩

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读