爬虫正则

作者: seven1010 | 来源:发表于2021-06-10 16:37 被阅读0次

今天爬取好代夫网站，使用正则遇到一个棘手的问题，在医院的科室页，想匹配肾内科的链接，使用url = re.search(r'facutly/(.*?)\.htm.*?肾', response.text, re.S) 总是匹配到第一个科室。

屏幕快照 2019-07-08 下午9.59.45.png

我错误的以为非贪婪匹配，那一定会匹配到靠近肾字url, 可是总是匹配到第一个科室
那是因为正则是从头开始搜索，当遇到第一个符合匹配规则时候就会与他匹配，后面的就不管了，r'facutly/(.*?)\.htm 与第一个科室匹配，所有在第一个科室和肾字中间的都被非贪婪匹配.*? 所匹配，而不是我想当然的倒序非贪婪匹配，所以非贪婪前面的子集很重要，要想匹配到肾内科，前面子集必须不能匹配到前面的科室

网友评论

本文标题：爬虫正则

本文链接：https://www.haomeiwen.com/subject/utjzhctx.html

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！

爬虫正则

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫 正则

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫正则