（一）刚入爬虫坑(3)——数据提取之re的使用

（一）刚入爬虫坑(3)——数据提取之re的使用

作者: 爱折腾的胖子 | 来源:发表于2018-09-18 17:07 被阅读0次

（一）刚入爬虫坑(3)——数据提取之re的使用
（一）刚入爬虫坑(3)——boss直聘数据爬取案例(re版本)
（一）刚入爬虫坑(2)——urllib.request库的使用(
（一）刚入爬虫坑(1)——爬虫简介
抓取数据进行分析处理_day86
（一）刚入爬虫坑(2)——urllib.request库的使用(
吐血总结—Python 正则表达式（从基础到进阶）
吐血总结—Python 正则表达式（从基础到进阶）
五个月写作收入100多元，你确定要坚持下去？
【Python爬虫】太刺激了！本来只想爬个视频的，谁知自己沦陷进

使用urllib库可以模拟浏览器发送请求获得服务器返回的数据，下一步就是把有用的数据提取出来。数据分为两种形式结构化和非结构化。

非结构化数据一般指的是文本和HTML。文本中的内容特别杂，比如有电话号码，邮箱等信息，只能使用正则表达式进行提取；HTML可以使用CSS选择器、xpath、正则表达式进行提取。

结构化数据一般指的是JSON和XML。Json可以使用JsonPath处理，也可以转化成python对象。XML可以转化成python对象，或者使用CSS选择器、xpath、正则表达式进行提取。

这节主要研究一下正则表达式的使用方法和re模块的常用方法。

match()：

从字符串起始位匹配，如果匹配则返回第一个次提取的内容，如果不匹配则返回None。

m没有匹配，n匹配到12，此时的n表示的是一个match对象。

match中可以设置起始位置和结束位置。

从零开始计算，3表示第三位开始，5表示第五位结束（不包含第五位字符）。m.group()可以返回match对象中匹配到的值。

compile()中可以设置一些参数，re.I 表示忽略大小写，re.S表示全文匹配

m.group()返回匹配内容和m.group(0)一样，m.group(n)表示匹配的内容中分组的单个内容。

除了group()还有一个方法span()，返回的是字符下标。

切记，如果match对象为None时，使用group和span等方法会抛出异常，使用时进行非空判断。

search()：

从字符串任意位匹配，如果匹配则返回第一个次提取的内容，如果不匹配则返回None。

search中可以设置起始位置和结束位置。

从零开始计算，3表示第三位开始，5表示第五位结束（不包含第五位字符）。

findall()：

从字符串任意位匹配，如果匹配则返回所有提取的内容，如果不匹配则返回[]。

findall中可以设置起始位置和结束位置。

finditer()：

从字符串任意位匹配，如果匹配则返回所有提取的内容组成的迭代对象，如果不匹配也返回一个迭代对象。

finditer中可以设置起始位置和结束位置。

finditer返回的迭代对象可以理解为match对象的集合，通过for遍历的方式，可以获取match，group方法可以获取匹配的值。

split()：

从字符串任意位匹配，如果匹配，则以匹配的内容为分割点，返回切分后的list数据。

分割点为{空格数字 \ ;}的顺序形式，有序

分割点为{空格数字 \ ;}的各种组合形式，无序

sub()：

从字符串任意位匹配，如果匹配，则替换匹配的内容，返回替换后的字符串。

从字符串任意位匹配，如果匹配，则交换匹配的内容的位置，返回处理后的字符串。

相关文章

（一）刚入爬虫坑(3)——数据提取之re的使用
使用urllib库可以模拟浏览器发送请求获得服务器返回的数据，下一步就是把有用的数据提取出来。数据分为两种形式结构...
（一）刚入爬虫坑(3)——boss直聘数据爬取案例(re版本)
前面介绍了发送HTTP请求获取服务器返回的数据、数据通过re库进行数据提取。这节就写一个小案例，爬一下boss直聘...
（一）刚入爬虫坑(2)——urllib.request库的使用(
在（一）刚入爬虫坑(2)——urllib.request库的使用(1)中介绍了user-agent可以模拟成浏览器...
（一）刚入爬虫坑(1)——爬虫简介
网上资源很多，很多新手在学习的时候，不知道自己真的需要什么，找资料很费时间，我作为新手大军的一员，希望能写...
抓取数据进行分析处理_day86
查找数据源可以使用东财的数据分析数据源编写抓取程序使用Python的爬虫框架可以对数据进行爬取这里可以使用re...
（一）刚入爬虫坑(2)——urllib.request库的使用(
在（一）刚入爬虫坑(1)——爬虫简介中提到过urllib2这个库，这个库是python2.7自带的模块，不需要下载...
吐血总结—Python 正则表达式（从基础到进阶）
在使用爬虫爬取数据，或者做数据挖掘和分析的时候我们经常会使用到正则表达式，在Python中使用正则需要导入re包...
吐血总结—Python 正则表达式（从基础到进阶）
在使用爬虫爬取数据，或者做数据挖掘和分析的时候我们经常会使用到正则表达式，在Python中使用正则需要导入re包...
五个月写作收入100多元，你确定要坚持下去？
有个刚入自媒体坑的网友，非常欢喜地在头条上提现了100多元，这是她第一次提现，所以很开心，但这只是入坑的开始，现今...
【Python爬虫】太刺激了！本来只想爬个视频的，谁知自己沦陷进
知识点爬虫基本流程 re正则表达式简单使用 requests json数据解析方法视频数据保存开发环境 Py...

网友评论

本文标题：（一）刚入爬虫坑(3)——数据提取之re的使用

本文链接：https://www.haomeiwen.com/subject/husfnftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|（一）刚入爬虫坑(3)——数据提取之re的使用|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！