美文网首页
urllib 正则

urllib 正则

作者: 清酒金杯空对月 | 来源:发表于2019-01-27 11:20 被阅读0次

urllib库的基本使用

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。

urllib的模块:

request: 它是最基本的HTTP请求模块,可以用来模拟发送请求,就像在浏览器中输入网址,然后敲击回车键一样,使用的时候只需要给库方法传入相关的URL和相关的参数即可
error: 异常处理模块,如果出现请求错误,我们可以使用这个模块来捕获异常,然后进行重试或者其他操作,保证程序不会意外终止.

parse: 这是一个工具模块,提供了许多url的处理方法,比如拆分,解析,合并等等

常用参数:

url:设置目标url
data:如果设置该参数,则请求默认为post请求
timeout:用于设置超时时间,单位为秒
context:必须是一个ssl.SSLContext类型,用来指定SSL设置,忽略未认证的CA证书.

Request:类的相关参数

url 参数是请求链接,这个是必传参数,其他的都是可选参数。

data 参数跟 urlopen() 中的 data 参数用法相同。

headers 是一个字典。它除了在 Request 中添加,还可以通过调用 Reques t实例的 add_header() 方法来添加请求头。

unverifiable 参数表示这个请求是否是无法验证的,默认值是False。意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个HTML文档中的图片,但是我们没有自动抓取图像的权限,我们就要将 unverifiable 的值设置成 True。(这个参数我们不需要设置)

method 参数指的是发起的 HTTP 请求的方式

data(默认空):是伴随 url 提交的数据(比如要post的数据),同时 HTTP 请求将从 "GET"方式 改为 "POST"方式。

headers(默认空):是一个字典,包含了需要发送的HTTP报头的键值对。

请求头:

用不同的浏览器在发送请求的时候,会有不同的User-Agent头。 urllib默认的User-Agent头为:Python-urllib/x.y(x和y是Python主版本和次版本号,例如 Python-urllib/3.5)

Header:

HTTP Request 中加入特定的 Header,来构造一个完整的HTTP请求消息。
可以通过调用Request.add_header() 添加/修改一个特定的header
也可以通过调用Request.get_header()来查看已有的header。

正则:

单字符匹配

. 除换行符之外的任意字符
\d 表示数字
\D 匹配非数字
\w 匹配单词字符[a-z,A-Z,0-9]
\W 匹配非单词字符
\s 匹配空白字符,空格,\n \t ...
\S 匹配非空白字符
^ 匹配以...开头
$ 匹配以...结尾
[0-9] => \d 匹配0-9

多字符匹配(贪婪匹配)

  • 匹配*前面的字符任意次数
  • 匹配+前面的字符至少1次
    ? 匹配?前面的字符0~1次
    {n,m} 匹配{n,m}前面的字符n~m次

多字符匹配(非贪婪匹配)

*?
+?
??

其他匹配

() 分组
| 逻辑或
\ 转义字符

相关文章

  • 网页图片爬虫

    import urllib import urllib.request import re #正则表达式 def ...

  • urllib,正则

    基本库的作用是:发送页面请求,处理异常,解析链接,分析Robots协议。基本用法urllib有: 可以看出urll...

  • urllib 正则

    urllib库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 urll...

  • Python 常用库,以及库的使用

    import copy 拷贝 import re 正则 import path import urllib ...

  • 爬虫面试基础整理

    常用网络数据爬取方法urllib正则表达式Beautiful SoupSeleniumScrapyLxml 常见的...

  • 用python写python爬虫-链接爬虫

    链接爬虫 基于正则表达式匹配内容 coding=utf-8 import reimport urllib2imp...

  • 好用的python库目录

    爬虫 requests:网页抓取,可替代官方库urllib lxml:正则表达式库,可替代官方库re beauti...

  • 爬取58月嫂招聘信息:requests、beautifulsou

    本篇文章是用requests请求,beautifulsoup进行解析;如果是找正则表达式、urllib案例的同学建...

  • 小总结-坑坑

    post 的请求参数的转换 json解析的使用 urllib下的文件存储 正则的正确使用 获取岗位数量 文件操作 ...

  • 11.BeautifulSoup详解

    上一篇:8.Urllib库基本使用下一篇:10.正则表达式基础 正则表达式其实对很多人来说用起来是不方便的,需要记...

网友评论

      本文标题:urllib 正则

      本文链接:https://www.haomeiwen.com/subject/vjegjqtx.html