用python写爬虫-re模块

用python写爬虫-re模块

作者: ddm2014 | 来源:发表于2018-08-25 11:08 被阅读0次

用python写爬虫-re模块
小福利，教你用python爬虫获取腾讯新闻
python学习笔记（二）——requests模块
requests 获取淘宝搜索页面信息
21.Python之re模块
python爬虫-抓取内涵吧内涵段子
python 爬虫一招解决SSl 报错SSLError
python（学会正则走天下）
正则表达式
Xpath模拟登陆GitHub

re模块中最常用到三个函数的是match，search，findall。
不过他们都能匹配字符串，不过又稍有不同。

基本格式

re.findall/match/search("匹配规则/pattern", "要匹配的字符串")

pattern

我一般用到的情况都是准长这样子开头内容（.星号？）结尾内容
点代表的是任意字符。星号代表的是取 0 至无限长度，问号代表的是非贪婪模式。

比如要匹配下面字符串中的url
tx ='"pic_middle":"http://wx4.sinaimg.cn/wap360/50a6dcc7ly1fud4g29v0tj22c0340kjl.jpg","pic_big":'
'"pic_middle":"http://wx2.sinaimg.cn/wap360/50a6dcc7ly1fud4g3lbhkj22c02lub29.jpg","pic_big":'
求url地址的pattern就是"pic_middle":(.*?),"pic_big":

非贪婪模式

这是说遇到第一个结尾匹配,"pic_big":就结束了，所以结果就是http://wx2.sinaimg.cn/wap360/50a6dcc7ly1fud4g3lbhkj22c02lub29.jpg
假如不加？的话，就会变成我看看后面还有没有,"pic_big":额，还有呢，那就把所有的内容都返回吧，就会变成这样。
"http://wx4.sinaimg.cn/wap360/50a6dcc7ly1fud4g29v0tj22c0340kjl.jpg","pic_big":' \ '"pic_middle":"http://wx2.sinaimg.cn/wap360/50a6dcc7ly1fud4g3lbhkj22c02lub29.jpg"

返回结果

findall返回的是list
match只能找字符串开头与pattern相匹配的，不一样就返回None。
search是一旦找到匹配的就返回，不会去找后来匹配的，都找不到返回None
他们两个返回都是object，要得到具体的匹配内容，要用group。
group是pattern中的（）的个数，group(0)是所有查找的内容，group(1)是第一个括号中查找的内容，group(2)是第一个括号中查找的内容...像这样

image.png

比如要匹配字符串是
match:

search,看起来跟match是一样的额，

但是一旦字符串的开头不是匹配字符，match就不能用了

findall

findall

正则表达式在爬虫里用的不多，一般来说，html格式都能用beautiful soup，pyquery之类来解析，json能用json模块来解析，re模块我用的最多的是把返回的json数据中含有其他信息，不好用pandas.read_json读取数据变成dataframe，比如这样的数据：

image.png

就需要re把data后面的数据提取出来。这时用search即可。
有时json结构及其繁琐，想将所有url提取出来，findall也能胜任。

相关文章

用python写爬虫-re模块
re模块中最常用到三个函数的是match，search，findall。不过他们都能匹配字符串，不过又稍有不同。 ...
小福利，教你用python爬虫获取腾讯新闻
小福利，教你用python爬虫获取腾讯新闻在尝试了多个模块bs4,lxml,re,json，多种方法之后，终于找到...
python学习笔记（二）——requests模块
python的requests模块是爬虫的基本模块，让我们看看怎么用！参考：Python3 网络爬虫开发实战介绍...
requests 获取淘宝搜索页面信息
教程来自 b站，mooc Python网络爬虫与信息提取, 使用requests re 模块issue : 获取...
21.Python之re模块
Python之re模块 re模块介绍re 模块使 Python 语言拥有全部的正则表达式功能。 re模块的内置方法...
python爬虫-抓取内涵吧内涵段子
这是个python简易爬虫，主要使用了requests和re模块，适合入门。出处：https://github.c...
python 爬虫一招解决SSl 报错SSLError
摘要用python写爬虫的时候没我们经常遇到https认证的网站，采用常用模块requests模块，我们一般在请...
python（学会正则走天下）
python通过re模块来实现。本篇文章着重对Python的RE进行介绍re 模块首先通过 re.compiler...
正则表达式
Python中的正则表达式可以用re模块访问，re模块是标准库的一部分。 re.match() ，re.searc...
Xpath模拟登陆GitHub
PTYHON 爬虫这是我用python2.7写的简单教程准备工作安装requests lxml模块 pip i...

网友评论

本文标题：用python写爬虫-re模块

本文链接：https://www.haomeiwen.com/subject/inmwiftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|用python写爬虫-re模块|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！