Re库的介绍

作者: 臻霏 | 来源:发表于2019-04-12 10:11 被阅读0次

Re库的介绍
Re库的基本使用
re库的用法介绍
Python正则表达式
爬虫笔记（1）基础
3.
re库
react基础概述
（3）分布式ID之数据库自增ID实现分布式ID
Hibernate的使用(一)

Re库又称为正则表达式库，是Python的标准库，主要用于字符串的匹配

调用方法

 import re

Re库的基本使用

Re库使用raw string 类型（原生字符串类型），表示为r'test'，例如：r'[1-9]\d{5}'表示大陆的邮政编码
【原生字符串：不包含转义符的字符串】
应用：当正则表达式中包含转义字符时，用raw string来表达

Re库的主要功能函数

re.search()

在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象，在字符串中搜索和正则表达式一样的地方
re.search(pattern,string,flags=0)
pattern：正字表达式的字符串或原生字符串表示
string ：待匹配的字符串
flags：正则表达式使用是的控制标记
【flags：正则表达式使用是的控制标记
re.I（re.IGNORECASE）忽略正则表达式的大小写，A-Z能匹配小写字母
re.M （re.MULTILINE）正则表达式中的^操作符能够将给定字符串的每行当做匹配的开始，没有这个标记的话，是只匹配整个字符串的开始部分，如果给定字符串是一篇文章，则从每一行的开始匹配
re.S （re.DOTALL）正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符，如果有了这个标记，则可以匹配所有字符，包括换行符
】

improt re
match = re.search(r'[1-9]\d{5}','BIT 100085')
if match:
print(match.group(0))
100085
【if match的作用是验证返回的match对象不为空，调用其方法group可输出匹配结果】

re.match()

从一个字符串的开始位置起匹配正则表达式，返回match对象，只在给定字符串的开始位置匹配正则表达式

re.findall()

搜索字符串，以列表类型返回全部的匹配字符串

improt re
ls = re.findall('[1-9]\d{5}','BIT100081 TSU100084')
ls
['100081','100084']

re.split()

将一个字符串按照正则表达式匹配结果进行分割，返回子串的列表类型
re.split(pattern,string,massplit=0,flags=0)
【pattern：正字表达式的字符串或原生字符串表示
string：待匹配字符串
maxsplit：最大分割数，剩余部分作为最后一个元素输出
flags：正则表达式使用是的控制标记
】

import re
re.split('[1-9]\d{5}','BIT100081 TSU100084 ')
['BIT',' TSU',' ']
re.split('[1-9]\d{5}','BIT100081 TSU100084 ',maxsplit=1)
['BIT',' TSU100084 ']

re.finditer()

搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象，可以通过循环方式对每一个匹配进行相关操作
re.finditer(pattern,string,flag)

import re
for m in re.finditerre.split('[1-9]\d{5}','BIT100081 TSU100084 '):
if m:
print(m.group(0))
100081
100084

re.sub()

在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串
re.sub(pattern,repl,string,count=0,flags=0)
【repl：替换匹配字符串的字符串
count：匹配的最大替换次数
】

import re
re.sub(r'[1-9]\d{5}',':zipcode','BIT100081 TSU100084 ')
'BIT:zipcode TSU:zipcode'

Re库的两种等价用法：

函数式用法：

rst = re.search(r'[1-9]\d{5}','BIT 100081 ')

面向对象法：

pat = re.compile(r'[1-9]\d{5}')
rst = pat.search('BIT 100081')

regex = re.compile(pattern,flags=0)
【将正则表达式的字符串形式编译成正则表达式对象】

Re库的match对象类型

match对象是一次匹配的结果，包含了许多相关的信息

match对象的属性

.string 待匹配的文本
.re 匹配是使用的pattern对象（正则表达式）
.pos 正则表达式搜索文本开始位置（从原文本字符串开始搜索的字符的下标）
.endpos 正则表达式索索文本的结束位置（从原文本字符串结束搜索的字符的下标）

match对象的方法

.group(0) 获得匹配后的字符串
.start() 匹配字符串在原始字符串的开始位置(开始下标)
.end() 匹配字符串在原始字符串的结束位置（结束下标）
.span 返回元组类型（.start()，.end()）

示例代码

import re
m = re.search(r'[1-9]\d{5}','BIT100081 TSU100084 ')
m.string                'BIT100081 TSU100084'
m.re                     re.compile('[1-9]\\d{5}')
m.pos                    0
m.endpos                 19
m.group(0)               '100081'
m.start()                3
m.end()                  9
m.span()                 (3,9)

Re库的贪婪匹配和最小匹配

Re库默认采用贪婪匹配，即输出匹配最长的子串
如：

improt re
match = re.search(r'PY.*N','PYANBNCNDN')
print(match.group(0))

PYANBNCNDN

如何输出最短子串呢（最小匹配）

match = re.search(r'PY.*？N','PYANBNCNDN')

PYAN

最小匹配操作符

*? 前一个字符的0次或无限次扩展，最小匹配
+? 前一个字符的1次或无限次扩展，最小匹配
?? 前一个字符的0次或1次扩展，最小匹配
{m,n}? 前一个字符的m至n次扩展，包含n，最小匹配

网友评论

本文标题：Re库的介绍

本文链接：https://www.haomeiwen.com/subject/hoaoiqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Re库的介绍

调用方法

Re库的基本使用

Re库的主要功能函数

re.search()

re.match()

re.findall()

re.split()

re.finditer()

re.sub()

Re库的两种等价用法：

函数式用法：

面向对象法：

Re库的match对象类型

match对象的属性

match对象的方法

示例代码

Re库的贪婪匹配和最小匹配

最小匹配操作符

相关文章

Re库的介绍

Re库的基本使用

re库的用法介绍

Python正则表达式

爬虫笔记（1）基础

3.

re库

react基础概述

（3）分布式ID之数据库自增ID实现分布式ID

Hibernate的使用(一)

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读