正则表达式（三）

作者: Li77159 | 来源:发表于2018-05-08 16:34 被阅读0次

正则表达式
正则表达式（1）
2018-11-02jmeter关联,正则表达式
常用的正则表达式
R 正则表达式
day 14
正则表达式最佳实践
python group()
正则表达式快速入门
粗通正则表达式

re模块的高级用法

search

需求：匹配出文章阅读的次数

import re

ret = re.search(r"\d+", "阅读次数为 9999")
ret.group()
>>>
9999

findall

需求：统计出python、c、c++相应文章阅读的次数

import re

ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)
>>>
['9999', '7890', '12345']

sub 将匹配到的数据进行替换

需求将匹配到的阅读次数+1

方法一

import re

ret = re.sub(r"\d+", '998', "python = 997")
print(ret)
>>>
python = 998

方法二

import re

def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

ret = re.sub(r"\d+", add, "python = 997")
print(ret)
>>>
python = 998

ret = re.sub(r"\d+", add, "python = 99")
print(ret)
>>>
python = 100

从下面的字符串中取出文本

<div>
<p>岗位职责：</p>
<p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p>
<p><br></p>
<p>必备要求：</p>
<p>良好的自我驱动力和职业素养，工作积极主动、结果导向</p>
<p>&nbsp;<br></p>
<p>技术要求：</p>
<p>1、一年以上 Python 开发经验，掌握面向对象分析和设计，了解设计模式</p>
<p>2、掌握HTTP协议，熟悉MVC、MVVM等概念以及相关WEB开发框架</p>
<p>3、掌握关系数据库开发设计，掌握 SQL，熟练使用 MySQL/PostgreSQL 中的一种<br></p>
<p>4、掌握NoSQL、MQ，熟练使用对应技术解决方案</p>
<p>5、熟悉 Javascript/CSS/HTML5，JQuery、React、Vue.js</p>
<p>&nbsp;<br></p>
<p>加分项：</p>
<p>大数据，数理统计，机器学习，sklearn，高性能，大并发。</p>

</div>

首先将此文本编辑到名为01.txt文档中

<div>
<p>岗位职责：</p>
<p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p>
<p><br></p>
<p>必备要求：</p>
<p>良好的自我驱动力和职业素养，工作积极主动、结果导向</p>
<p>&nbsp;<br></p>
<p>技术要求：</p>
<p>1、一年以上 Python 开发经验，掌握面向对象分析和设计，了解设计模式</p>
<p>2、掌握HTTP协议，熟悉MVC、MVVM等概念以及相关WEB开发框架</p>
<p>3、掌握关系数据库开发设计，掌握 SQL，熟练使用 MySQL/PostgreSQL 中的一种<br></p>
<p>4、掌握NoSQL、MQ，熟练使用对应技术解决方案</p>
<p>5、熟悉 Javascript/CSS/HTML5，JQuery、React、Vue.js</p>
<p>&nbsp;<br></p>
<p>加分项：</p>
<p>大数据，数理统计，机器学习，sklearn，高性能，大并发。</p>

</div>

接下来在01.py文件中编辑

import re

f = open('01.txt','r')
d = str(f.read())
f.close()
a = r'\n|<\w*>|</\w*>|&nbsp;'
ret =re.split(a,d)

for c in ret:
    if len(c) != 0:
        print(c)

运行得到

岗位职责：
完成推荐算法、数据统计、接口、后台等服务器端相关工作
必备要求：
良好的自我驱动力和职业素养，工作积极主动、结果导向
技术要求：
1、一年以上 Python 开发经验，掌握面向对象分析和设计，了解设计模式
2、掌握HTTP协议，熟悉MVC、MVVM等概念以及相关WEB开发框架
3、掌握关系数据库开发设计，掌握 SQL，熟练使用 MySQL/PostgreSQL 中的一种
4、掌握NoSQL、MQ，熟练使用对应技术解决方案
5、熟悉 Javascript/CSS/HTML5，JQuery、React、Vue.js
加分项：
大数据，数理统计，机器学习，sklearn，高性能，大并发。

split根据匹配进行切割字符串，并返回一个列表

需求：切割字符串“info:xiaoZhang 33 shandong”

  import re

  ret = re.split(r":| ","info:xiaoZhang 33 shandong")
  print(ret)
  >>>
  ['info', 'xiaozhang', '33', 'shandong']

贪婪与非贪婪

Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；
非贪婪则相反，总是尝试匹配尽可能少的字符。

在"*","?","+","{m,n}"后面加上？，使贪婪变成非贪婪。

s="This is a number 234-235-22-423">>> r=re.match(".+(\d+-\d+-\d+-\d+)",s)
r.group(1)
>>>
'4-235-22-423'

r=re.match(".+?(\d+-\d+-\d+-\d+)",s)
r.group(1)
>>>
'234-235-22-423'

正则表达式模式中使用到通配字，那它在从左到右的顺序求值时，会尽量“抓取”满足匹配最长字符串，在我们上面的例子里面，“.+”会从字符串的启始处抓取满足模式的最长字符，其中包括我们想得到的第一个整型字段的中的大部分，“\d+”只需一位字符就可以匹配，所以它匹配了数字“4”，而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。

解决方式：
非贪婪操作符“？”，这个操作符可以用在"*","+","?"的后面，要求正则匹配的越少越好。

re.match(r"aa(\d+)","aa2343ddd").group(1)
>>>
'2343'

re.match(r"aa(\d+?)","aa2343ddd").group(1)
>>>
'2'

re.match(r"aa(\d+)ddd","aa2343ddd").group(1)
>>>
'2343'

re.match(r"aa(\d+?)ddd","aa2343ddd").group(1)
>>>
'2343'

正则表达式.png

结束语

如果您对这篇文章有什么意见或者建议,请评论与我讨论.
如果您觉得还不错的话~可以点个喜欢鼓励我哦.
如果您想和我一起学习,请毫不吝啬的私信我吧~

网友评论

本文标题：正则表达式（三）

本文链接：https://www.haomeiwen.com/subject/eflwrftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

正则表达式（三）

re模块的高级用法

贪婪与非贪婪

结束语

相关文章