request:
request对象是从客户端向服务器发出请求,包括用户提交的信息以及客户端的一些信息。客户端可通过HTML表单或在网页地址后面提供参数的方法提交数据,然后通过request对象的相关方法来获取这些数据。
在爬虫中的request其实就是通过python向服务器发出request请求(客户端向服务器端发起请求),得到其返回的信息。
Request中包含什么?
基本GET请求(URL headers参数 和 parmas参数)
1. 最基本的GET请求可以直接用get方法
response = requests.get("http://www.baidu.com/")
- response的常用方法:
- response.text 返回解码后的字符串
- respones.content 以字节形式(二进制)返回。
- response.status_code 响应状态码
- response.request.headers 请求的请求头
- response.headers 响应头
- response.encoding = 'utf-8' 可以设置编码类型
- response.encoding 获取当前的编码
- response.json() 内置的JSON解码器,以json形式返回,前提返回的内容确保是json格式的,不然解析出错会抛异常
基本POST请求(data参数)
最基本的GET请求可以直接用post方法
2. 传入data数据
对于 POST 请求来说,我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数
正则表达式(re)
为什么要学正则表达式?
因为我们下载下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。
那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。
正则表达式:又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。
使用正则表达式要达到的目的是什么呢?
- 给定的字符串是否符合正则表达式的过滤逻辑(“匹配”);
- 通过正则表达式,从文本字符串中获取我们想要的特定部分(“过滤”)
正则表达式的匹配规则如下:
Python 的 re 模块
在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。
re 模块的一般使用步骤如下:
- 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象
- 通过 Pattern 对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个 Match 对象。
- 最后使用 Match 对象提供的属性和方法获得信息,根据需要进行其他的操作
compile 函数
compile 函数用于编译正则表达式,生成一个 Pattern 对象
findall
findall 以列表形式返回全部能匹配的子串,如果没有匹配,则返回一个空列表。
正则规则学习参考网站:正则学习网站
xpath选择器
我正则用的不好,处理HTML文档很累,有没有其他的方法?
有!那就是XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。
什么是XPath?
XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。
文档:w3c官方文档xpath
注意:在使用XPath的语法运用到Python抓取时要先转换为xml。
lxml库
lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。
初步使用
我们利用它来解析 HTML 代码,简单示例:
BeautifulSoup4选择器
和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。
lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。
例子:
PyQuery简介
pyquery相当于jQuery的python实现,可以用于解析HTML网页等。它的语法与jQuery几乎完全相同,对于使用过jQuery的人来说很熟悉,也很好上手
#pyquery语法规则类似于Jquery,可以对html文本进行解析
pq('css选择器')
items():获取到多个标签时,使用items()将PyQuery转换为一个生成器
然后在使用for in 循环filter('css选择器'):过滤text():获取标签的文本attr('属性名')获取属性值
什么是多线程?
CPU是计算机计算的基本单位,用来计算和处理任务 可以包含多个进程,进程中可以包含多个线程,进程、线程、锁lock(阻塞)。
多线程,密集的I/O操作、读写
多进程:用于密集的计算,一个cpu只能运行一个进程
使用多线程会让爬虫进行多任务的爬取。快捷,高效。
原理图什么是selenium?
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。
它用于爬虫中的作用?
Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Mozilla Suite等。使用它爬取页面也十分方便,只需要按照访问步骤模拟人在操作就可以了,完全不用操心Cookie,Session的处理,它甚至可以帮助你输入账户,密码,然后点击登陆按钮。
网友评论