美文网首页
python的正则表达式

python的正则表达式

作者: 11egnaw | 来源:发表于2017-02-18 18:52 被阅读0次

    在进行正则表达式的匹配时以下四个语句的区别到底在哪里?

    需要匹配的原始文档:

    <div class="author clearfix">
    <a href="/users/24041432/" target="_blank" rel="nofollow">
    ![做个被需要的人。](https://img.haomeiwen.com/i4772802/a9e4f303f36042cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    </a>
    <a href="/users/24041432/" target="_blank" title="做个被需要的人。">
    <h2>做个被需要的人。</h2>
    </a>
    ...
    <div class="signin-error" id="signin-error"></div>
    <button type="submit" id="form-submit" class="form-submit">登录</button>
    </form>
    </div>
    <div class="signin-foot clearfix">
    <a rel="nofollow" href="/new4/fetchpass" class="fetch-password">忘记密码?</a>
    </div>
    </div>
    </div>
    
    <div class="float-nav">
    <a class="float-nav-backtop" href="#" rel="nofollow">
    <span class="float-nav-backtop-icon"></span>
    </a>
    </div>
    
    <!--[if gte IE 6]>
    <script type="text/javascript" src="http://static.qiushibaike.com/js/src/web/json3.js?v=3a7f66a11a09842cd7555fad039657be"></script>
    <![endif]-->
    <script type="text/javascript" src="http://static.qiushibaike.com/js/dist/web/libs.min.js?v=bc8ddd36f0e7fed7c27f437c17f23ce0"></script>
    <script type="text/javascript" src="http://static.qiushibaike.com/js/dist/web/app.min.js?v=9d24424ee8d18d35a0a64362f6e6694a"></script>
    
    
    
    <script type="text/javascript">
    

    期望的第二个匹配集合的输出

    做个被需要的人。
    

    语句1:

    '<div.*?author clearfix">(.*?)<a.*?title="(.*)">'
    items = re.findall(pattern, content)
    for item in items:
      print item[1]
    

    输出:

    做个被需要的人。">
    <h2>做个被需要的人。</h2>
    </a>
    <div class="articleGender manIcon">21</div>
    </div>
    
    
    <input type="hidden" id="hid">
    <div id="single-next-link" title="下一条">
    
    
    <div class="content">
    ...
    <script type="text/javascript
    

    语句2:

    '<div.*?author clearfix">(.*?)<a.*?title="(.*)">.*?<h2>'
    items = re.findall(pattern, content)
    for item in items:
      print item[1]
    

    输出:

    做个被需要的人。
    

    语句3:

    '<div.*?author clearfix">(.*?)<a.*?title="(.*?)">'
    items = re.findall(pattern, content)
    for item in items:
      print item[1]
    

    输出:

    做个被需要的人。
    

    语句4:

    '<div.*?author clearfix">.*?<a.*?title="(.*?)">'
    items = re.findall(pattern, content)
    for item in items:
      print item[0]
    

    输出:

    一些观察和分析

    • 观察
    • findall()的返回值是什么?
      我们在代码中打印出findall的返回值:
        pattern = re.compile('<div.*?author clearfix">(.*?)<a.*?title="(.*?)">', re.S)
        items = re.findall(pattern, content)
        print items
    

    输出:

    [(u'\n', u'\u505a\u4e2a\u88ab\u9700\u8981\u7684\u4eba\u3002')]
    

    由此输出,我们可以看出items包含了两个匹配集合。一个是换行符,一个是一段文本。

    • 再试一个
      输入
    pattern = re.compile('<div.*?author clearfix">.*?<a.*?title="(.*?)">', re.S)
        items = re.findall(pattern, content)
        print items
    

    输出

    [u'\u505a\u4e2a\u88ab\u9700\u8981\u7684\u4eba\u3002']
    

    由此输出,可以发现items仅仅是我们用括号制定的匹配集合。对于上面的一个例子同样成立。通过观察,我们发现,有一次记录匹配,items中就会多一个item, 而对于每个匹配的item,它内部的元素就是每个匹配集合。

    • 分析
    • 语句1中采用的是python默认的贪婪匹配,所以这个pattern直接匹配到了文本的最后。
    • 语句2中采用的也是贪婪匹配,但是因为在我们期望的那个pattern之后加上了对于<h2>的匹配,所以就限制了匹配的长度。
    • 通过以上两次实验的分析我们可以得知,对于语句3, items中有且仅有一个元素。而item[1]就是第二个匹配集,即title的值。
    • 对于输出4而言,item中只有一个匹配集合。所以item就是“做个被需要的人”。因为一个字符串就是字符的数组,所以在我们使用item[0]时就获取了第一个字符。

    相关文章

      网友评论

          本文标题:python的正则表达式

          本文链接:https://www.haomeiwen.com/subject/scqdwttx.html