美文网首页
2018-08-09 3days 正则表达式

2018-08-09 3days 正则表达式

作者: 试翼腾渊 | 来源:发表于2018-08-12 20:41 被阅读0次

    字符:
    一般字符 :匹配自身。
    . : 匹配除“\n” 之外的任意字符,在DOTALL 模式中也能匹配换行符
    \ : 转义字符 使后一个字符改变原来的意思。
    [....] :字符集 字符类 可以给出值得取值范围, 第一个字符如果是^表示取反
    预定义字符集
    \d :数字[0-9]
    \D: 非数字 [^\d]
    \s :空白字符 。 [空格 \t\r\n\f\v]
    \S : 非空白字符
    \w : 单词字符
    \W :非单词字符
    数量词

    • 匹配前一个字符0次或 无限次
    • 匹配前一个字符1次或无限次
      ?匹配前一个字符0次或1次
      {m} 匹配前一个字符m次
      {m,n} 匹配前一个字符m次至n次
      *?+??? {m,n}? 变成非贪婪模式。
      ^ \A 匹配字符开头
      $ \Z 匹配字符串末尾
      \b .匹配单词的边界
      \B [^\b]
      逻辑 分组
      | 或 用括号括住
      (.....) . 分组 有编号 从1 开始
      (?p<name>...) 分组,除了原有的编号 外在指定一个额外名额
      <number> 引用编号为<number>的分组匹配到的字符串。
      (?p=name) 引用别名的分组匹配到的字符串

    compile 函数
    compile 函数用于编译正则表达式,生成一个 Pattern 对象,它的一般使用形式如下:
    import re 将正则表达式编译成 Pattern 对象 pattern = re.compile(r'\d+')

    ● match 方法:从起始位置开始查找,一次匹配
    ● search 方法:从任何位置开始查找,一次匹配
    ● findall 方法:全部匹配,返回列表
    ● finditer 方法:全部匹配,返回迭代器
    ● split 方法:分割字符串,返回列表
    ● sub 方法:替换
    match方法介绍
    match 方法用于查找字符串的头部(也可以指定起始位置),它是一次匹配,只要找到了一个匹配的结果就返回,而不是查找所有匹配的结果。它的一般使用形式如下:
    当匹配成功时,返回一个 Match 对象,如果没有匹配上,则返回 None。
    导入re模块
    import re

    使用match方法进行匹配操作

    result = re.match(正则表达式,要匹配的字符串)

    如果上一步匹配到数据的话,可以使用group方法来提取数据

    result.group()

    re模块的高级用法
    search:
    search 方法用于查找字符串的任何位置,它也是一次匹配,只要找到了一个匹配的结果就返回,而不是查找所有匹配的结果,它的一般使用形式如下:
    当匹配成功时,返回一个 Match 对象,如果没有匹配上,则返回 None。
    需求:匹配出文章阅读的次数

    coding=utf-8

    import re

    ret = re.search(r"\d+", "阅读次数为 9999")
    ret.group()

    运行结果:

    '9999'
    findall
    上面的 match 和 search 方法都是一次匹配,只要找到了一个匹配的结果就返回。然而,在大多数时候,我们需要搜索整个字符串,获得所有匹配的结果。
    findall 方法的使用形式如下:
    findall 以列表形式返回全部能匹配的子串,如果没有匹配,则返回一个空列表。
    需求:统计出python、c、c++相应文章阅读的次数

    coding=utf-8

    import re

    ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
    print(ret)

    运行结果:

    ['9999', '7890', '12345']
    sub
    sub 方法用于替换。它的使用形式如下:
    需求:将匹配到的阅读次数加1
    方法1:

    coding=utf-8

    import re

    ret = re.sub(r"\d+", '998', "python = 997")
    print(ret)

    运行结果:

    python = 998
    方法2:

    coding=utf-8

    import re

    def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

    ret = re.sub(r"\d+", add, "python = 997")
    print(ret)

    ret = re.sub(r"\d+", add, "python = 99")
    print(ret)

    运行结果:

    python = 998
    python = 100
    练习
    从下面的字符串中取出文本
    <div>
    <p>岗位职责:</p>
    <p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p>
    <p>
    </p>
    <p>必备要求:</p>
    <p>良好的自我驱动力和职业素养,工作积极主动、结果导向</p>
    <p> 
    </p>
    <p>技术要求:</p>
    <p>1、一年以上 Python 开发经验,掌握面向对象分析和设计,了解设计模式</p>
    <p>2、掌握HTTP协议,熟悉MVC、MVVM等概念以及相关WEB开发框架</p>
    <p>3、掌握关系数据库开发设计,掌握 SQL,熟练使用 MySQL/PostgreSQL 中的一种
    </p>
    <p>4、掌握NoSQL、MQ,熟练使用对应技术解决方案</p>
    <p>5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js</p>
    <p> 
    </p>
    <p>加分项:</p>
    <p>大数据,数理统计,机器学习,sklearn,高性能,大并发。</p>

        </div>
    

    参考答案:
    re.sub(r"<[^>]*>| |\n", "", test_str)
    split
    根据匹配进行切割字符串,并返回一个列表
    需求:切割字符串“info:xiaoZhang 33 shandong”

    coding=utf-8

    import re

    ret = re.split(r":| ","info:xiaoZhang 33 shandong")
    print(ret)

    运行结果:

    ['info', 'xiaoZhang', '33', 'shandong']
    finditer
    finditer方法的行为跟 findall 的行为类似,也是搜索整个字符串,获得所有匹配的结果。但它返回一个顺序访问每一个匹配结果(Match 对象)的迭代
    import re
    ret = re.finditer('ha',baseStr)
    print(type(ret))
    print(ret)

    for item in ret:
    print(type(item))
    print(item.group())
    结果: <class 'callable_iterator'> <callable_iterator object at 0x7fb06cc15828> <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha

    *? 重复任意次,但尽可能少重复
    +? 重复1次或更多次,但尽可能少重复
    ?? 重复0次或1次,但尽可能少重复

    相关文章

      网友评论

          本文标题:2018-08-09 3days 正则表达式

          本文链接:https://www.haomeiwen.com/subject/zulebftx.html