爬虫总结

作者: baihao | 来源:发表于2019-01-02 09:00 被阅读0次

资料
小小分布式爬虫从架构到实现（一）
爬虫
jq用python爬虫抓站的一些技巧总结
Python爬虫基础教程（三）
2020-03-28 respuests 的使用
scrapinghub 部署scrapy爬虫
爬虫的测试方法
3天玩转爬虫,爬取网页数据
浅析Java Web 防爬虫机制

requests:

安装方式: pip3 install requests

Requests 继承了urllib的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的URL和 POST 数据自动编码。

re正则：

则表达式概述

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

Regular Expression的“Regular”一般被译为“正则”、“正规”、“常规”。此处的“Regular”即是“规则”、“规律”的意思，Regular Expression即“描述某种规则的表达式”之意。

目的给定一个正则表达式和另一个字符串，我们可以达到如下的目的：给定的字符串是否符合正则表达式的过滤逻辑（称作“匹配”）：可以通过正则表达式，从字符串中获取我们想要的特定部分。

compile 函数：

match 方法：从起始位置开始查找，一次匹配

search 方法：从任何位置开始查找，一次匹配

findall 方法：全部匹配，返回列表

finditer 方法：全部匹配，返回迭代器

split 方法：分割字符串，返回列表

sub 方法：替换

firstdesc字符功能.匹配任意1个字符（除了\n）[ ]匹配[ ]中列举的字符\d匹配数字，即0-9\D匹配非数字，即不是数字\s匹配空白，即空格，tab键\S匹配非空白\w匹配单词字符，即a-z、A-Z、0-9、_\W匹配非单词字符

firstdesc

字符功能

*匹配前一个字符出现0次或者无限次，即可有可无

+匹配前一个字符出现1次或者无限次，即至少有1次

?匹配前一个字符出现1次或者0次，即要么有1次，要么没有

{m}匹配前一个字符出现m次

{m,n}匹配前一个字符出现从m到n次

xpath:

什么是XPath？

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

什么是XML?

XML 指可扩展标记语言（EXtensible Markup Language）

XML 是一种标记语言，很类似 HTML

XML 的设计宗旨是传输数据，而非显示数据

XML 的标签需要我们自行定义。

XML 被设计为具有自我描述性。

XML 是 W3C 的推荐标准

路径表达式:

nodename选取此节点的所有子节点。

/从根节点选取。

//从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。

.选取当前节点。

..选取当前节点的父节点。

@选取属性

则表达式概述

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

Regular Expression的“Regular”一般被译为“正则”、“正规”、“常规”。此处的“Regular”即是“规则”、“规律”的意思，Regular Expression即“描述某种规则的表达式”之意。

多线程:

Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;

队列是线程间最常用的交换数据的形式

包中的常用方法:

Queue.qsize() 返回队列的大小

Queue.empty() 如果队列为空，返回True,反之False

Queue.full() 如果队列满了，返回True,反之False

Queue.full 与 maxsize 大小对应

**Queue.get(block,timeout)**获取队列，timeout等待时间

创建一个“队列”对象

网友评论

本文标题：爬虫总结

本文链接：https://www.haomeiwen.com/subject/tiholqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫总结

requests:

re正则：

compile 函数：

xpath:

路径表达式:

多线程:

包中的常用方法:

相关文章

资料

小小分布式爬虫从架构到实现（一）

爬虫

jq用python爬虫抓站的一些技巧总结

Python爬虫基础教程（三）

2020-03-28 respuests 的使用

scrapinghub 部署scrapy爬虫

爬虫的测试方法

3天玩转爬虫,爬取网页数据

浅析Java Web 防爬虫机制

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读