美文网首页
python的正则表达式

python的正则表达式

作者: 11egnaw | 来源:发表于2017-02-18 18:52 被阅读0次

在进行正则表达式的匹配时以下四个语句的区别到底在哪里?

需要匹配的原始文档:

<div class="author clearfix">
<a href="/users/24041432/" target="_blank" rel="nofollow">
![做个被需要的人。](https://img.haomeiwen.com/i4772802/a9e4f303f36042cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
</a>
<a href="/users/24041432/" target="_blank" title="做个被需要的人。">
<h2>做个被需要的人。</h2>
</a>
...
<div class="signin-error" id="signin-error"></div>
<button type="submit" id="form-submit" class="form-submit">登录</button>
</form>
</div>
<div class="signin-foot clearfix">
<a rel="nofollow" href="/new4/fetchpass" class="fetch-password">忘记密码?</a>
</div>
</div>
</div>

<div class="float-nav">
<a class="float-nav-backtop" href="#" rel="nofollow">
<span class="float-nav-backtop-icon"></span>
</a>
</div>

<!--[if gte IE 6]>
<script type="text/javascript" src="http://static.qiushibaike.com/js/src/web/json3.js?v=3a7f66a11a09842cd7555fad039657be"></script>
<![endif]-->
<script type="text/javascript" src="http://static.qiushibaike.com/js/dist/web/libs.min.js?v=bc8ddd36f0e7fed7c27f437c17f23ce0"></script>
<script type="text/javascript" src="http://static.qiushibaike.com/js/dist/web/app.min.js?v=9d24424ee8d18d35a0a64362f6e6694a"></script>



<script type="text/javascript">

期望的第二个匹配集合的输出

做个被需要的人。

语句1:

'<div.*?author clearfix">(.*?)<a.*?title="(.*)">'
items = re.findall(pattern, content)
for item in items:
  print item[1]

输出:

做个被需要的人。">
<h2>做个被需要的人。</h2>
</a>
<div class="articleGender manIcon">21</div>
</div>


<input type="hidden" id="hid">
<div id="single-next-link" title="下一条">


<div class="content">
...
<script type="text/javascript

语句2:

'<div.*?author clearfix">(.*?)<a.*?title="(.*)">.*?<h2>'
items = re.findall(pattern, content)
for item in items:
  print item[1]

输出:

做个被需要的人。

语句3:

'<div.*?author clearfix">(.*?)<a.*?title="(.*?)">'
items = re.findall(pattern, content)
for item in items:
  print item[1]

输出:

做个被需要的人。

语句4:

'<div.*?author clearfix">.*?<a.*?title="(.*?)">'
items = re.findall(pattern, content)
for item in items:
  print item[0]

输出:

一些观察和分析

  • 观察
  • findall()的返回值是什么?
    我们在代码中打印出findall的返回值:
    pattern = re.compile('<div.*?author clearfix">(.*?)<a.*?title="(.*?)">', re.S)
    items = re.findall(pattern, content)
    print items

输出:

[(u'\n', u'\u505a\u4e2a\u88ab\u9700\u8981\u7684\u4eba\u3002')]

由此输出,我们可以看出items包含了两个匹配集合。一个是换行符,一个是一段文本。

  • 再试一个
    输入
pattern = re.compile('<div.*?author clearfix">.*?<a.*?title="(.*?)">', re.S)
    items = re.findall(pattern, content)
    print items

输出

[u'\u505a\u4e2a\u88ab\u9700\u8981\u7684\u4eba\u3002']

由此输出,可以发现items仅仅是我们用括号制定的匹配集合。对于上面的一个例子同样成立。通过观察,我们发现,有一次记录匹配,items中就会多一个item, 而对于每个匹配的item,它内部的元素就是每个匹配集合。

  • 分析
  • 语句1中采用的是python默认的贪婪匹配,所以这个pattern直接匹配到了文本的最后。
  • 语句2中采用的也是贪婪匹配,但是因为在我们期望的那个pattern之后加上了对于<h2>的匹配,所以就限制了匹配的长度。
  • 通过以上两次实验的分析我们可以得知,对于语句3, items中有且仅有一个元素。而item[1]就是第二个匹配集,即title的值。
  • 对于输出4而言,item中只有一个匹配集合。所以item就是“做个被需要的人”。因为一个字符串就是字符的数组,所以在我们使用item[0]时就获取了第一个字符。

相关文章

  • 正则表达式

    Python正则表达式初识(一) Python正则表达式初识(二) Python正则表达式初识(三) Python...

  • 正则表达式

    Python:正则表达式Python:正则表达式

  • Python正则表达式指南

    Python正则表达式指南 本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达...

  • Python爬虫(十)_正则表达式

    本篇将介绍python正则表达式,更多内容请参考:【python正则表达式】 什么是正则表达式 正则表达式,又称规...

  • python正则表达式

    本篇将介绍python正则表达式,更多内容请参考:【python正则表达式】 什么是正则表达式 正则表达式,又称规...

  • [转]python正则表达式(一) 函数使用

    原文:python | 史上最全的正则表达式 更全的正则表达式处理函数:在python中使用正则表达式(一) 0....

  • Python正则表达式用法详解

    搞懂Python 正则表达式用法 Python 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一...

  • Python正则表达式指南

    本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例...

  • Python正则表达式

    python正则表达式

  • Python处理正则表达式超时的办法

    title: Python处理正则表达式超时的办法tags: [python3, 正则表达式超时, re模块]da...

网友评论

      本文标题:python的正则表达式

      本文链接:https://www.haomeiwen.com/subject/scqdwttx.html