爬虫细节总结

作者: 二矢二 | 来源:发表于2018-12-30 18:41 被阅读0次

爬虫细节总结
Python爬虫
资料
小小分布式爬虫从架构到实现（一）
使用爬虫爬取豆瓣电影影评数据Python版
爬虫
jq用python爬虫抓站的一些技巧总结
Python爬虫基础教程（三）
2020-03-28 respuests 的使用
scrapinghub 部署scrapy爬虫

request:

request对象是从客户端向服务器发出请求，包括用户提交的信息以及客户端的一些信息。客户端可通过HTML表单或在网页地址后面提供参数的方法提交数据，然后通过request对象的相关方法来获取这些数据。

在爬虫中的request其实就是通过python向服务器发出request请求(客户端向服务器端发起请求)，得到其返回的信息。

Request中包含什么？

基本GET请求（URL headers参数和 parmas参数）

1. 最基本的GET请求可以直接用get方法

response = requests.get("http://www.baidu.com/")

- response的常用方法：

- response.text 返回解码后的字符串

- respones.content 以字节形式（二进制）返回。

- response.status_code　响应状态码

- response.request.headers　请求的请求头

- response.headers　响应头

- response.encoding = 'utf-8' 可以设置编码类型

- response.encoding 获取当前的编码

- response.json() 内置的JSON解码器，以json形式返回,前提返回的内容确保是json格式的，不然解析出错会抛异常

基本POST请求（data参数）

最基本的GET请求可以直接用post方法

2. 传入data数据

对于 POST 请求来说，我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数

正则表达式(re)

为什么要学正则表达式?

因为我们下载下了的数据是全部的网页，这些数据很庞大并且很混乱，大部分的东西使我们不关心的，因此我们需要将之按我们的需要过滤和匹配出来。

那么对于文本的过滤或者规则的匹配，最强大的就是正则表达式，是Python爬虫世界里必不可少的神兵利器。

正则表达式：又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。

使用正则表达式要达到的目的是什么呢？

- 给定的字符串是否符合正则表达式的过滤逻辑（“匹配”）；

- 通过正则表达式，从文本字符串中获取我们想要的特定部分（“过滤”）

正则表达式的匹配规则如下：

Python 的 re 模块

在 Python 中，我们可以使用内置的 re 模块来使用正则表达式。

re 模块的一般使用步骤如下：

- 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象

- 通过 Pattern 对象提供的一系列方法对文本进行匹配查找，获得匹配结果，一个 Match 对象。

- 最后使用 Match 对象提供的属性和方法获得信息，根据需要进行其他的操作

compile 函数

compile 函数用于编译正则表达式，生成一个 Pattern 对象

findall

findall 以列表形式返回全部能匹配的子串，如果没有匹配，则返回一个空列表。

正则规则学习参考网站：正则学习网站

xpath选择器

我正则用的不好，处理HTML文档很累，有没有其他的方法？

有！那就是XPath，我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。

什么是XPath？

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

文档：w3c官方文档xpath

注意:在使用XPath的语法运用到Python抓取时要先转换为xml。

lxml库

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml Python官方文档

初步使用

我们利用它来解析 HTML 代码，简单示例：

xpath 参考资料

BeautifulSoup4选择器

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。

BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。

官方文档

例子：

PyQuery简介

pyquery相当于jQuery的python实现，可以用于解析HTML网页等。它的语法与jQuery几乎完全相同，对于使用过jQuery的人来说很熟悉，也很好上手

中文教程

官方文档

#pyquery语法规则类似于Jquery,可以对html文本进行解析

pq('css选择器')

items():获取到多个标签时，使用items()将PyQuery转换为一个生成器

然后在使用for in 循环filter('css选择器'):过滤text():获取标签的文本attr('属性名')获取属性值

什么是多线程?

CPU是计算机计算的基本单位，用来计算和处理任务可以包含多个进程，进程中可以包含多个线程，进程、线程、锁lock（阻塞）。

多线程，密集的I/O操作、读写

多进程：用于密集的计算，一个cpu只能运行一个进程

使用多线程会让爬虫进行多任务的爬取。快捷，高效。

原理图

什么是selenium?

Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。

它用于爬虫中的作用？

Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Mozilla Suite等。使用它爬取页面也十分方便，只需要按照访问步骤模拟人在操作就可以了，完全不用操心Cookie,Session的处理，它甚至可以帮助你输入账户，密码，然后点击登陆按钮。