美文网首页
python学习笔记-tip56(re模块)

python学习笔记-tip56(re模块)

作者: 黑键手记 | 来源:发表于2018-12-01 18:50 被阅读44次

    引言

    上一篇列举了一些「正则表达式」的规则,本篇文章提一下 python 中的 「re模块」
    其实「re模块」就是 python 为我们提供的方便操作正则表达式的模块。

    因为 python 中也有转义,所以我们如果在 python 中写「正则表达式」的时候,需要这么写

    s=‘abc\\_123’
    这样才能表示是
    abc\_123的正则表达式

    但是如果我们使用了 「re模块」的话,那么只需要在前面加 r 即可

    s=r'abc\_123'
    即可表示
    abc\_123

    这样就能够解决我们书写的麻烦。

    使用「re模块」的一个小案例,一个匹配电话号码的正则表达式

    如图,即使用到了「re模块」,正则表达式还是要用滴,哈哈

    使用正则+re模块 进行字符串的分割

    我们知道,对字符串可以使用 split() 方法完成字符串的分割,如下


    一般的字符串处理,我们直接这样使用
    字符串.split(分隔符)就能够实现了
    但是请看下方案例


    如图可见,如果我们处理了稍微复杂一点的字符串的时候,普通的分割符就不好用了,这个时候,我们需要用到「正则表达式」和「re模块」。

    请看



    瞧,是不是很方便?

    除了字符串分割,还可以通过「re模块」中的match 方法完成「分组」功能

    我们还是举个例子来说,比如我们现在想对电话号码进行匹配
    电话号码是010-888888
    那么其实可以对这个电话分一下组,一组为区号010,一组为电话号码888888
    那么我们就可以定义「正则表达式」:r‘\d{3}\-\d{3,8}’
    然后我们通过re.match()方法对字符串进行匹配,如果匹配成功,则返回一个Match对象,如果匹配失败则返回None
    那么Match对象可以通过group(索引)获得字串,索引为0的子串永远为原始字符串,剩下的则按照匹配规则进行分配。
    正是通过上述的方法,完成字符串分组的功能。

    我们把上面的案例,写成代码,大家来参考一下,注意在实现分组功能的时候,需要使用()对需要分组的正则进行包裹,这样才能达到分组的效果。

    贪婪匹配

    #有一点我们需要注意,正则表达式其实是贪婪匹配的,即在匹配规则范围内,尽可能多的去匹配数据
    举个例子,还是用分组来举例,现在想把一个比较大的数的 尾部的0和前边的数分离开来,比如
    123000 这个数,分离成为123000这两组,我们先使用我们以前的思路去匹配

    上图可见,我们的正则表达式
    (\d+)(0*)第一组会尽可能多的去匹配字符串,导致达不到预期,这个时候,我们需要采用#非贪婪模式即可

    只需要在表达式后方添加一个就好了


    需要注意的是:如果想正确的匹配数据,建议加上头部限制和尾部限制

    「re模块」的优化

    「re模块」在使用的时候,python会做两件事

    • 编译正则表达式,如果正则表达式本省有错误,那么会报错
    • 用编译后的正则表达式去匹配
      所以,每次使用「re模块」的时候都会执行上面两个过程,效率不是很高,所以我们可以使用下面的方法去提高效率。
      在程序中先对 正则表达式进行预编译,接下来使用「re模块」就不会再进行编译,直接能使用了
      只需要通过compile()方法即可
      看一下示例代码

      通过这个方法可以提高「re模块」的效率,推荐使用。

    总结
    我们利用正则表达式能够完成很多操作字符串的问题,大家可以试试去匹配不一样的东西,比如邮箱,价格,邮编等等,只有去匹配不同的东西,才能锻炼自己写正则的熟练度~

    相关文章

      网友评论

          本文标题:python学习笔记-tip56(re模块)

          本文链接:https://www.haomeiwen.com/subject/aourcqtx.html