python学习笔记-tip56(re模块)

作者: 黑键手记 | 来源:发表于2018-12-01 18:50 被阅读44次

python学习笔记-tip56(re模块)
Python ☞ day 11
正则表达式
python学习笔记——re模块
21.Python之re模块
python（学会正则走天下）
Python语言re模块学习笔记
Python 脚本之统计基因组文件中染色体长度及N碱基数目
python笔记：re模块
python正则表达式

引言

上一篇列举了一些「正则表达式」的规则，本篇文章提一下 python 中的「re模块」
其实「re模块」就是 python 为我们提供的方便操作正则表达式的模块。

因为 python 中也有转义，所以我们如果在 python 中写「正则表达式」的时候，需要这么写

s=‘abc\\_123’
这样才能表示是
abc\_123的正则表达式

但是如果我们使用了「re模块」的话，那么只需要在前面加 r 即可

s=r'abc\_123'
即可表示
abc\_123

这样就能够解决我们书写的麻烦。

使用「re模块」的一个小案例，一个匹配电话号码的正则表达式

如图，即使用到了「re模块」,正则表达式还是要用滴，哈哈

使用正则+re模块进行字符串的分割

我们知道，对字符串可以使用 split() 方法完成字符串的分割，如下

一般的字符串处理，我们直接这样使用
字符串.split(分隔符)就能够实现了
但是请看下方案例

如图可见，如果我们处理了稍微复杂一点的字符串的时候，普通的分割符就不好用了，这个时候，我们需要用到「正则表达式」和「re模块」。

请看

瞧，是不是很方便？

除了字符串分割，还可以通过「re模块」中的match 方法完成「分组」功能

我们还是举个例子来说，比如我们现在想对电话号码进行匹配
电话号码是010-888888
那么其实可以对这个电话分一下组，一组为区号010，一组为电话号码888888
那么我们就可以定义「正则表达式」：r‘\d{3}\-\d{3,8}’
然后我们通过re.match()方法对字符串进行匹配，如果匹配成功，则返回一个Match对象，如果匹配失败则返回None。
那么Match对象可以通过group(索引)获得字串，索引为0的子串永远为原始字符串，剩下的则按照匹配规则进行分配。
正是通过上述的方法，完成字符串分组的功能。

我们把上面的案例，写成代码，大家来参考一下，注意在实现分组功能的时候，需要使用()对需要分组的正则进行包裹，这样才能达到分组的效果。

贪婪匹配

#有一点我们需要注意，正则表达式其实是贪婪匹配的，即在匹配规则范围内，尽可能多的去匹配数据
举个例子，还是用分组来举例，现在想把一个比较大的数的尾部的0和前边的数分离开来，比如
123000 这个数，分离成为123 、000这两组，我们先使用我们以前的思路去匹配

上图可见，我们的正则表达式
(\d+)(0*)第一组会尽可能多的去匹配字符串，导致达不到预期，这个时候，我们需要采用#非贪婪模式即可

只需要在表达式后方添加一个`？`就好了

需要注意的是：如果想正确的匹配数据，建议加上头部限制和尾部限制

「re模块」的优化

「re模块」在使用的时候，python会做两件事

编译正则表达式，如果正则表达式本省有错误，那么会报错
用编译后的正则表达式去匹配
所以，每次使用「re模块」的时候都会执行上面两个过程，效率不是很高，所以我们可以使用下面的方法去提高效率。
在程序中先对正则表达式进行预编译，接下来使用「re模块」就不会再进行编译，直接能使用了
只需要通过compile()方法即可
看一下示例代码

通过这个方法可以提高「re模块」的效率，推荐使用。

总结
我们利用正则表达式能够完成很多操作字符串的问题，大家可以试试去匹配不一样的东西，比如邮箱，价格，邮编等等，只有去匹配不同的东西，才能锻炼自己写正则的熟练度~

网友评论

本文标题：python学习笔记-tip56(re模块)

本文链接：https://www.haomeiwen.com/subject/aourcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！