爬虫课程（五）｜十分钟学会使用正则表达式

作者: 小怪聊职场 | 来源:发表于2017-10-28 09:07 被阅读1454次

爬虫课程（五）｜十分钟学会使用正则表达式
Python爬取招聘网站数据，并可视化展示招聘需求、薪资、招聘人
神奇的正则表达式
一篇文章深析Python爬虫核心，正则表达式其实很容易！
Python 爬虫第一步 - 正则表达式
【爬虫作业2】正则表达式爬虫
Python 爬虫第一步 - 正则表达式
爬虫10-正则表达式+requests实现原生爬虫
团队小伙伴第一次Python爬虫直播课
三阶段day27-爬虫2

一、为什么必须要有正则表达式

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

在我们使用xpath和css选择器时只能取到html标签下的一段字符串，比如我们要取知乎回答下的时间，有的是“发布于 13:57”，有的是“发布于昨天 13:50”，还有的是“发布于 2016-03-17”。如果我们不用正则表达式，而用其他替代方案，比如多个if else，或者replace，处理起来是非常繁琐的。

本文章将介绍几种非常常用的特殊字符，学会了使用这些字符将会解决98%爬虫需要做字符串提取的工作。

二、正则表达式最常见的字符

1）特殊字符：就是一些有特殊含义的字符。 $ () * + . [ ? \ ^ { |

2）限定符：用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。* + ? {n} {n,} {n,m}

3）定位符：用来描述字符串或单词的边界。^ $

4）其他字符：\w \W \s \S \d

我先不介绍这些字符有什么含义，我们直接进入python示例

三、正则表达式的简单应用及python示例

3.1、介绍^ . * $的用法

1）^ 匹配输入字符串开始的位置。

2）. 匹配除换行符 \n 之外的任何单字符。

3）* 匹配前面的子表达式零次或多次。

4）$ 匹配输入字符串的结尾位置。

^ . * $的用法

3.2、介绍() ?用法

1）()标记一个子表达式的开始和结束位置。

2）?匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。

() ?用法

3.3、介绍+ {n} {n,} {n,m}用法

1）+匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。

2）{n} n 是一个非负整数。匹配确定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。

3）{n,} n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。

4）{n,m} m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

+ {n} {n,} {n,m}用法

3.4、介绍｜[123] [0-9] [^1]用法

1）｜指明两项之间的一个选择。

2）[123] 只要是123中的其中一个即可。

3）[0-9] 只要是0-9中的任意数字即可。

4）[^1] 非，只要不是1即可。

｜[123] [0-9] [^1]

3.5、介绍\s \S \w \W \d用法

1）\s匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

2）\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

3）\w 等价于[A-Za-z0-9_]。

4）\W 与\w相反。

5）\d 所有数字，等价于[0-9]。

\s \S \w \W \d

爬虫课程（五）｜十分钟学会使用正则表达式
一、为什么必须要有正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式（pat...
Python爬取招聘网站数据，并可视化展示招聘需求、薪资、招聘人
课程亮点爬虫的基本流程 re正则表达式模块的简单使用 requests模块的使用保存csv 环境介绍 pyth...
神奇的正则表达式
作为爬虫的重要手段，正则表达式的使用可以说是极好的，学会匹配正则对于得到我们想要的数据是重要的。正则表达式教程
一篇文章深析Python爬虫核心，正则表达式其实很容易！
python爬虫正则表达式介绍元字符 ^ $ * + . | ? {} [] () 这就是元字符了，学会这些应该...
Python 爬虫第一步 - 正则表达式
正则表达式的使用想要学习 Python 爬虫，首先需要了解一下正则表达式的使用，下面我们就来看看如何使用。 ...
【爬虫作业2】正则表达式爬虫
1. 学习任务：正则表达式爬虫 Day 3 观看第二讲视频，了解爬虫原理和requests库的使用 Day 4 观...
Python 爬虫第一步 - 正则表达式
文／千里追风（简书作者）正则表达式的使用想要学习Python爬虫，首先需要了解一下正则表达式的使用，下面我...
爬虫10-正则表达式+requests实现原生爬虫
大家好呀，今天我们来使用正则表达式和requests实现原生的爬虫，不使用BeautifulSoup或者Xpath...
团队小伙伴第一次Python爬虫直播课
『Python爬虫小分队』小伙伴罗罗攀完成了我们在熊猫TV的第一次网络直播课程，从爬虫原理开始，到正则表达式应...
三阶段day27-爬虫2
爬虫解析库的使用之前爬虫的信息抓取是采用正则表达式匹配抓取，而更常用的匹配方式是使用解析库匹配。目前有两种解析库...