美文网首页
爬虫细节总结

爬虫细节总结

作者: 二矢二 | 来源:发表于2018-12-30 18:41 被阅读0次

request:

request对象是从客户端向服务器发出请求,包括用户提交的信息以及客户端的一些信息。客户端可通过HTML表单或在网页地址后面提供参数的方法提交数据,然后通过request对象的相关方法来获取这些数据。

在爬虫中的request其实就是通过python向服务器发出request请求(客户端向服务器端发起请求),得到其返回的信息。

Request中包含什么?

基本GET请求(URL  headers参数 和 parmas参数)

1. 最基本的GET请求可以直接用get方法

response = requests.get("http://www.baidu.com/")

- response的常用方法:

    - response.text 返回解码后的字符串

    - respones.content 以字节形式(二进制)返回。

    - response.status_code  响应状态码

    - response.request.headers  请求的请求头

    - response.headers  响应头

    - response.encoding = 'utf-8' 可以设置编码类型

    - response.encoding 获取当前的编码

    - response.json() 内置的JSON解码器,以json形式返回,前提返回的内容确保是json格式的,不然解析出错会抛异常

基本POST请求(data参数)

最基本的GET请求可以直接用post方法

2. 传入data数据

对于 POST 请求来说,我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数

正则表达式(re)

为什么要学正则表达式?

因为我们下载下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。

那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。

正则表达式:又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。

使用正则表达式要达到的目的是什么呢?

- 给定的字符串是否符合正则表达式的过滤逻辑(“匹配”);

- 通过正则表达式,从文本字符串中获取我们想要的特定部分(“过滤”)

正则表达式的匹配规则如下:

Python 的 re 模块

在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。

re 模块的一般使用步骤如下:

- 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象

- 通过 Pattern 对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个 Match 对象。

- 最后使用 Match 对象提供的属性和方法获得信息,根据需要进行其他的操作

compile 函数

compile 函数用于编译正则表达式,生成一个 Pattern 对象

findall

findall 以列表形式返回全部能匹配的子串,如果没有匹配,则返回一个空列表。

正则规则学习参考网站:正则学习网站

xpath选择器

我正则用的不好,处理HTML文档很累,有没有其他的方法?

有!那就是XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。

什么是XPath?

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。

文档:w3c官方文档xpath

注意:在使用XPath的语法运用到Python抓取时要先转换为xml。

lxml库

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。

lxml  Python官方文档

初步使用

我们利用它来解析 HTML 代码,简单示例:

xpath  参考资料

BeautifulSoup4选择器

和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。

lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。

BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。

官方文档

例子:

PyQuery简介

pyquery相当于jQuery的python实现,可以用于解析HTML网页等。它的语法与jQuery几乎完全相同,对于使用过jQuery的人来说很熟悉,也很好上手

中文教程

官方文档

#pyquery语法规则类似于Jquery,可以对html文本进行解析

pq('css选择器')

items():获取到多个标签时,使用items()将PyQuery转换为一个生成器

然后在使用for in 循环filter('css选择器'):过滤text():获取标签的文本attr('属性名')获取属性值

什么是多线程?

CPU是计算机计算的基本单位,用来计算和处理任务  可以包含多个进程,进程中可以包含多个线程,进程、线程、锁lock(阻塞)。

多线程,密集的I/O操作、读写

多进程:用于密集的计算,一个cpu只能运行一个进程

使用多线程会让爬虫进行多任务的爬取。快捷,高效。

原理图

什么是selenium?

Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。

它用于爬虫中的作用?

Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Mozilla Suite等。使用它爬取页面也十分方便,只需要按照访问步骤模拟人在操作就可以了,完全不用操心Cookie,Session的处理,它甚至可以帮助你输入账户,密码,然后点击登陆按钮。

相关文章

  • 爬虫细节总结

    request: request对象是从客户端向服务器发出请求,包括用户提交的信息以及客户端的一些信息。客户端可通...

  • Python爬虫

    简单爬虫代码实现 网络爬虫的原理图 具体细节:https://www.cnblogs.com/wawlian/ar...

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • 小小分布式爬虫从架构到实现(一)

    做了一年多的爬虫相关工作了,来总结总结工作吧。 爬虫,是这样开始的…… 首先,为啥要做这个爬虫呢?因为公司在做大数...

  • 使用爬虫爬取豆瓣电影影评数据Python版

    在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现...

  • 爬虫

    总结爬虫流程:爬取--->解析--->存储什么是爬虫?请求网站并提取数据的自动化程序就叫做爬虫。爬虫的主要目的?是...

  • jq用python爬虫抓站的一些技巧总结

    用python爬虫抓站的一些技巧总结 原文出处: observer 累积不少爬虫抓站的经验,在此总结一下,那么...

  • Python爬虫基础教程(三)

    九、多线程爬虫 9.1利用多线程爬虫爬取糗事百科的资源: 十、爬虫代码总结: 要实现一个完整的爬虫,无外乎4...

  • 2020-03-28 respuests 的使用

    总结:新的爬虫方法,比urllib好理解。

  • scrapinghub 部署scrapy爬虫

    请首先注册scrapinghub,参见以下两篇文章: 利用scrapinghub发布你的爬虫项目 爬虫总结(三)-...

网友评论

      本文标题:爬虫细节总结

      本文链接:https://www.haomeiwen.com/subject/imtvlqtx.html