python的正则表达式

作者: 11egnaw | 来源:发表于2017-02-18 18:52 被阅读0次

正则表达式
正则表达式
Python正则表达式指南
Python爬虫(十)_正则表达式
python正则表达式
[转]python正则表达式(一) 函数使用
Python正则表达式用法详解
Python正则表达式指南
Python正则表达式
Python处理正则表达式超时的办法

在进行正则表达式的匹配时以下四个语句的区别到底在哪里？

需要匹配的原始文档：

<div class="author clearfix">
<a href="/users/24041432/" target="_blank" rel="nofollow">
![做个被需要的人。](https://img.haomeiwen.com/i4772802/a9e4f303f36042cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
</a>
<a href="/users/24041432/" target="_blank" title="做个被需要的人。">
<h2>做个被需要的人。</h2>
</a>
...
<div class="signin-error" id="signin-error"></div>
<button type="submit" id="form-submit" class="form-submit">登录</button>
</form>
</div>
<div class="signin-foot clearfix">
<a rel="nofollow" href="/new4/fetchpass" class="fetch-password">忘记密码?</a>
</div>
</div>
</div>

<div class="float-nav">
<a class="float-nav-backtop" href="#" rel="nofollow">
<span class="float-nav-backtop-icon"></span>
</a>
</div>

<!--[if gte IE 6]>
<script type="text/javascript" src="http://static.qiushibaike.com/js/src/web/json3.js?v=3a7f66a11a09842cd7555fad039657be"></script>
<![endif]-->
<script type="text/javascript" src="http://static.qiushibaike.com/js/dist/web/libs.min.js?v=bc8ddd36f0e7fed7c27f437c17f23ce0"></script>
<script type="text/javascript" src="http://static.qiushibaike.com/js/dist/web/app.min.js?v=9d24424ee8d18d35a0a64362f6e6694a"></script>



<script type="text/javascript">

期望的第二个匹配集合的输出

做个被需要的人。

语句1：

'<div.*?author clearfix">(.*?)<a.*?title="(.*)">'
items = re.findall(pattern, content)
for item in items:
  print item[1]

输出：

做个被需要的人。">
<h2>做个被需要的人。</h2>
</a>
<div class="articleGender manIcon">21</div>
</div>


<input type="hidden" id="hid">
<div id="single-next-link" title="下一条">


<div class="content">
...
<script type="text/javascript

语句2：

'<div.*?author clearfix">(.*?)<a.*?title="(.*)">.*?<h2>'
items = re.findall(pattern, content)
for item in items:
  print item[1]

输出：

做个被需要的人。

语句3：

'<div.*?author clearfix">(.*?)<a.*?title="(.*？)">'
items = re.findall(pattern, content)
for item in items:
  print item[1]

输出：

做个被需要的人。

语句4：

'<div.*?author clearfix">.*?<a.*?title="(.*？)">'
items = re.findall(pattern, content)
for item in items:
  print item[0]

输出：

做

一些观察和分析

观察
findall()的返回值是什么？
我们在代码中打印出findall的返回值：

    pattern = re.compile('<div.*?author clearfix">(.*?)<a.*?title="(.*?)">', re.S)
    items = re.findall(pattern, content)
    print items

输出：

[(u'\n', u'\u505a\u4e2a\u88ab\u9700\u8981\u7684\u4eba\u3002')]

由此输出，我们可以看出items包含了两个匹配集合。一个是换行符，一个是一段文本。

再试一个
输入

pattern = re.compile('<div.*?author clearfix">.*?<a.*?title="(.*?)">', re.S)
    items = re.findall(pattern, content)
    print items

输出

[u'\u505a\u4e2a\u88ab\u9700\u8981\u7684\u4eba\u3002']

由此输出，可以发现items仅仅是我们用括号制定的匹配集合。对于上面的一个例子同样成立。通过观察，我们发现，有一次记录匹配，items中就会多一个item, 而对于每个匹配的item，它内部的元素就是每个匹配集合。

分析
语句1中采用的是python默认的贪婪匹配，所以这个pattern直接匹配到了文本的最后。
语句2中采用的也是贪婪匹配，但是因为在我们期望的那个pattern之后加上了对于<h2>的匹配，所以就限制了匹配的长度。
通过以上两次实验的分析我们可以得知，对于语句3， items中有且仅有一个元素。而item[1]就是第二个匹配集，即title的值。
对于输出4而言，item中只有一个匹配集合。所以item就是“做个被需要的人”。因为一个字符串就是字符的数组，所以在我们使用item[0]时就获取了第一个字符。

网友评论

本文标题：python的正则表达式

本文链接：https://www.haomeiwen.com/subject/scqdwttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python的正则表达式

在进行正则表达式的匹配时以下四个语句的区别到底在哪里？

需要匹配的原始文档：

期望的第二个匹配集合的输出

语句1：

输出：

语句2：

输出：

语句3：

输出：

语句4：

输出：

一些观察和分析

相关文章

正则表达式

正则表达式

Python正则表达式指南

Python爬虫(十)_正则表达式

python正则表达式

[转]python正则表达式(一) 函数使用

Python正则表达式用法详解

Python正则表达式指南

Python正则表达式

Python处理正则表达式超时的办法

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读