优质资源，python 正则表达式实践 & python

作者: 48e0a32026ae | 来源:发表于2018-09-23 11:52 被阅读1次

正则表达式

应用场景

特定规律字符串的查找替换切割等

邮箱格式、URL、IP等的校验

爬虫项目中，特定内容的提取

使用原则

只要是能够使用字符串函数解决的问题，就不要使用正则

正则的效率较低，还会降低代码的可读性

世界上最难理解的三样东西：医生的处方、道士的神符、码农的正则

提醒：正则是用来写的，不是用来读的；在不知道功能的情况下，不要试图阅读别人的正则。

基本使用

说明：正则的解析处理是由 re 模块完成

相关函数：

match：从开头进行匹配，匹配到就返回正则结果对象，没有就返回None

search：从任意位置匹配，匹配到一次就返回，没有就返回None

import re

# 只从开头匹配，找到返回一个正则结果对象，没有找到返回None

# m = re.match('abc', 'abcsdhasdasjabcweuqo')

# 全部匹配，只要找到就停止并返回

m = re.search('abc', 'sdhabcsdasjabcweuqo')

if m:

# 提取匹配到的内容

print(m.group())

# 获取匹配位置

print(m.span())

findall：全局匹配，返回匹配到的结果列表，没有时返回空列表

# 匹配所有内容，返回匹配结果组成的列表，若没有则返回空列表

f = re.findall('abc', 'qwsdhaslabcsadjlasdoiabcdakls')

if f:

print(f)

print(type(f))

compile：生成正则表达式对象

# 生成正则表达式对象，用于正则匹配

c = re.compile('hello')

# 从开头进行匹配

# m = c.match('hellosdsjldkabc')

# 从任意位置匹配

m = c.search('shdjkhelloaskjdha')

if m:

print(m.group())

# 匹配所有

f = c.findall('helloasjdhakhello')

if f:

print(f)

将正则的匹配分两步完成：先创建正则对象，然后通过对象的match、search、findall方法完成匹配

正则规则

单个字符：

普通字符：简单来说就是一对一的完全匹配

[]：中间的任意一个字符

[a-z]：a~z之间的字符(所有小写字母)

[0-9]：0~9之间的字符(所有数字)

[A-Z0-9]：所有的大写字母和数字

[^abc]：除abc外的所有字符

. ：匹配''以外的任意字符

d：所有的数字，等价于[0-9]

D：所有的非数字，等价于[^0-9]

w：所有的数字、字母(中文)、下划线等(就是字)

W：所有的非字字符(w的取反)

s：所有的空白字符(、、、空格等)

S：所有的非空白字符

：词边界匹配(开头、结尾、标点、空格)

B：非词边界匹配

次数控制

*：前面的字符出现任意次

+：前面的字符出现至少一次

?：前面的字符出现至多一次

{m}：指定次数，m表示出现的次数

{m,}：至少指定次数

{m,n}：指定范围内的次数，m到n次之间

{,n}：至多n次，相当于{0,n}

正则的匹配默认都是贪婪的(最大限度的匹配)

边界限定

^：以指定的内容开头

$：以指定的内容结尾

示例

import re

# 以指定的内容开头

# c = re.compile(r'^abc')

# 以指定的内容结尾

c = re.compile(r'kas$')

s = c.search('abcsdhkas')

if s:

print(s.group())

优先级控制

|：表示或，它拥有最低的优先级

()：用于表示一个整体，明确的指定优先级

示例：

import re

c = re.compile(r'a(hello|world)b')

s = c.search('aworldb')

if s:

print(s.group())

分组匹配

说明：()不但可以作为一个整体，还可以进行分组匹配

示例1:

import re

c = re.compile(r'(d+)([a-z]+)(d+)')

s = c.search('shd327sjahdajhsd87892ehawksd')

if s:

print(s.group())

# 默认就是全部的匹配内容，等价于上式

print(s.group(0))

# 第一个()匹配到的内容

print(s.group(1))

print(s.group(2))

print(s.group(3))

print(s.span())

print(s.span(0))

print(s.span(1))

print(s.span(2))

print(s.span(3))

示例2：给分组起名字

import re

# 固定匹配

# c = re.compile(r'

w+')

# �表示前面第一个小括号匹配的内容

# c = re.compile(r'<([a-z]+)><([a-z]+)>w+')

# 给()起名字

c = re.compile(r'<(?P[a-z]+)><(?P[a-z]+)>w+')

s = c.search('

百度一下')

if s:

print(s.group())

贪婪匹配

贪婪：最大限度的匹配叫贪婪。正则的匹配默认是贪婪。

非贪婪：只要满足匹配条件，能少匹配就少匹配；通过可以使用'?'进行取消贪婪

示例：

import re

# 取消任意多次的贪婪

# c = re.compile(r'a.*?b')

# 取消至少一次的贪婪

c = re.compile(r'a.+?b')

s = c.search('abdhsadjbsdjabs')

if s:

print(s.group())

匹配模式

说明：所谓模式就是对匹配的原则进行整体的修饰

示例：

import re

# 忽略大小写的匹配

# c = re.compile(r'hello', re.I)

# s = c.search('Hello world')

# 进行多行匹配，默认单行匹配

# c = re.compile(r'^hello', re.M)

# s = c.search('world hello')

# 做为单行处理或让 . 能够匹配

c = re.compile(r'

.*?', re.S)

# string = '

hello'

string = '''

hello

'''

s = c.search(string)

if s:

print(s.group())

字符转义

若匹配正则语法中的特定字符都需要进行转义

正则字符串会被处理两次，python中处理一次，re模块会在处理一次

若不想考虑字符的转义问题，可以在书写正则字符串时前面加一个字符'r'

添加'r'之后，在python不会再进行任何转义，只需在与正则语法相关的字符前加''即可让其使用原有意义

网络编程

相关概念

OSI七层模型：开放系统互连参考模型。它从低到高分别是：物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。

TCP/IP：在OSI七层模型的基础上简化抽象出来的一套网络协议簇，现在得到了广泛使用。

TCP：传输控制协议

有连接的，数据是安全有保障的

传输的速度稍慢，三次握手、四次挥手、数据检查

UDP：用户数据报协议

无连接的，数据是不可靠的

传输的速度比较快

IP地址：唯一的一台计算标识

查看：ipconfig

ping：检查网络连通性

使用：ping IP/域名

端口号：每个应用可以拥有唯一的端口号

范围：0~65535

系统：0~1024，常用的应用所占用

http：80

https：443

smtp：25

ftp：21

ssh：22

mysql：3306

redis：6379

自己：大于1024

网络编程核心：

IP + 端口

库：socket

TCP协议

说明：面向连接、数据可靠(校验重发)、三次握手、四次挥手、传输速度较慢

原理：见 tcp.png

示例：见 01-tcp-http.py

TCP协议的服务器与客户端：见 02-tcp-server.py 与 03-tcp-client.py

UDP协议

说明：面向无连接的、数据不可靠、传输速度较快，适应于对数据要求不严格的情况

原理：见 udp.png

示例：模拟飞秋发送数据，见 04-udp-feiqiu.py

UDP协议的服务器与客户端：见 05-udp-server.y 与 06-udp-client.py

StringIO与BytesIO

说明：这些类型的对象可以与open返回的对象一样操作，但是操作的内存中的数据

方法：getvalue用于获取所有数据

网友评论

python热爱者

本文标题：优质资源，python 正则表达式实践 & python

本文链接：https://www.haomeiwen.com/subject/cbwfoftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

优质资源，python 正则表达式实践 & python

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python热爱者