Python爬虫-re(正则表达式)模块常用方法

作者: SSBun | 来源:发表于2016-06-02 17:38 被阅读2164次

Python 正则表达式——re模块介绍
Python 正则表达式——re模块介绍
小猪的Python学习之旅 —— 3.正则表达式
21.Python之re模块
python的正则表达式
python05-正则表达式(二)
python模块re简介
爬虫之道-正则表达式1
Python语言re模块学习笔记
2018-03-30

最近在学习使用Python来写爬虫,既然是学习爬虫,那肯定少不了筛选数据的神器-正则表达式,当然了强大的Python中也有正则表达式(正则表达式30分钟入门教程)的模块,那就是re,下面就来了解一些我们常用的正则方法:

re.match

re.match 模式:从字符串的开始匹配一个满足对象, 例如匹配第一个单词

import re 
str = "my name is BZ, what's your name ?"
value = re.match(r"(\w+)\s", text)
if value:
     print(m.group(0))
else:
     print('not match')

**re.match的函数为: re.match(pattern,string,flags) **
pattern: 为正则表达式如(\w+)\s,如果匹配成功就返回小括号内匹配的数据
**string: 要匹配的字符串 **
flags: 用来控制正则表达式的匹配规则,如:是否区分大小写

re.search

re.search 模式:在字符串中查找匹配的对象,找到第一个后返回,如果没有返回None
re.search的函数为:re.search(pattern,string,flags)
相比re.match只匹配开始而言,search会匹配所有,直到找到一个

re.sub

re.sub 模式:替换掉字符中的匹配项
re.sub的函数为:re.sub(pattern,repl,string,count)
pattern: 要替换的正则表达式
repl: 替换后的字符串
string: 被匹配的字符串
count: 替换的次数,如果为零,默认替换所有匹配项

re.split

re.split模式:分割字符,例如使用re.split(r',',text)将带,的字符串分割为数组

re.findall

re.findall 模式:获取字符串中所有匹配的对象
相比re.search而言会搜寻所有的可匹配对象

re.compile

re.compile模式:可以将一个正则表达式变成一个正则表达式对象,你可以使用它来匹配以上的各种规则,而不用重写正则表达式,例如:

import re
text = "my name is BZ, what's your name ?"
regex = re.compile(r'\w*BZ\w*')
print regex.findall(text) #查找所有包含'BZ'的单词
print regex.sub(lambda m: '[' + m.group(0) + ']', text) #将字符串中含有`BZ`的单词用`[]`括起来。

flag的几种不同意义:

re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同）
M(MULTILINE): 多行模式，改变'^'和'$'的行为
S(DOTALL): 点任意匹配模式，改变'.'的行为
L(LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
U(UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
X(VERBOSE): 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释.

Python 正则表达式——re模块介绍
Python 正则表达式 re 模块使 Python 语言拥有全部的正则表达式功能，re模块常用方法： re.ma...
Python 正则表达式——re模块介绍
Python 正则表达式 re 模块使 Python 语言拥有全部的正则表达式功能，re模块常用方法： re.ma...
小猪的Python学习之旅 —— 3.正则表达式
re模块 Python中通过re模块使用正则表达式，该模块提供的几个常用方法： 1.匹配 re.match(pat...
21.Python之re模块
Python之re模块 re模块介绍re 模块使 Python 语言拥有全部的正则表达式功能。 re模块的内置方法...
python的正则表达式
python提供了实现正则表达式的re模块。正则表达式的匹配字符： python的re模块常用函数 1.comp...
python05-正则表达式(二)
正则表达式(二) re模块(regex) python中没有正则表达式的函数，需要引入内置的re模块 re模块方法...
python模块re简介
re是Python中最常见的正则表达式模块,常用方法包括compile，match，findall，findite...
爬虫之道-正则表达式1
应该明确的是，在python爬虫中，正则表达式应该是分为两部分： re模块中各个方法的运用正则表达式语法 re模...
Python语言re模块学习笔记
Python 通过 re 模块来使用正则表达式（regex）的思想。re 模块的 match, search 方法...
2018-03-30
python 正则 re 模块常用方法re.match #从头匹配re.search #...