小猪的Python学习之旅 —— 3.正则表达式

作者: coder_pig | 来源:发表于2017-12-27 20:14 被阅读174次

小猪的Python学习之旅 —— 3.正则表达式
2021-03-04
# 小猪的Python学习之旅 —— 18.Python微信转
封面
python爬虫学习-day7-实战
Python 基础爬虫目录
python爬虫学习-day5-selenium
python爬虫学习-day6-ip池
python爬虫学习-day3-BeautifulSoup
python爬虫学习-day4-使用lxml+xpath提取内容

re模块

Python中通过re模块使用正则表达式，该模块提供的几个常用方法：

1.匹配

re.match(pattern, string, flags=0)

参数：匹配的正则表达式，要匹配的字符串，标志位(匹配方法)
尝试从字符串的开头进行匹配，匹配成功会返回一个匹配的对象，
类型是：<class '_sre.SRE_Match'>
group与groups

re.search(pattern, string, flags=0)

参数：同上
扫描整个字符串，返回第一个匹配的对象，否则返回None

注意：match方法和search的最大区别：match如果开头就不和正则表达式匹配，
直接返回None，而search则是匹配整个字符串！！

2.检索与替换

re.findall(pattern, string, flags=0)

参数：同上
遍历字符串，找到正则表达式匹配的所有位置，并以列表的形式返回

re.finditer(pattern, string, flags=0)

参数：同上
遍历字符串，找到正则表达式匹配的所有位置，并以迭代器的形式返回

re.sub(pattern, repl, string, count=0, flags=0)

参数：repl替换为什么字符串，可以是函数，把匹配到的结果做一些转换；
count替换的最大次数，默认0代表替换所有的匹配。
找到所有匹配的子字符串，并替换为新的内容

re.split(pattern, string, maxsplit=0, flags=0)

参数：maxsplit设置分割的数量，默认0代表所有满足匹配的都分割
在正则表达式匹配的地方进行分割，并返回一个列表

3.编译成Pattern对象

对于会多次用到的正则表达式，我们可以调用re的compile()方法编译成
Pattern对象，调用的时候直接Pattern对象.xxx即可，从而提高运行效率。

附：flags(可选标志位)表

多个标志可通过按位OR(|)进行连接，比如：re.I|re.M

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

2.正则规则详解

1.加在正则字符串前的'r'

为了告诉编译器这个string是个raw string(原字符串)，不要转义反斜杠！
比如在raw string里\n是两个字符，''和'n'，不是换行！

2.字符

字符	作用
`.`	匹配任意一个字符(除了\n)
`[]`	匹配[]中列举的字符
`[^...]`	匹配不在[]中列举的字符
`\d`	匹配数字，0到9
`\D`	匹配非数字
`\s`	匹配空白，就是空格和tab
`\S`	匹配非空白
`\w`	匹配字母数字或下划线字符，a-z，A-Z，0-9，_
`\W`	匹配非字母数字或下划线字符
`-`	匹配范围，比如[a-f]

3.数量

字符	作用(前面三个做了优化，速度会更快，尽量优先用前三个)
*``**	前面的字符出现了0次或无限次，即可有可无
`+`	前面的字符出现了1次或无限次，即最少一次
`?`	前面的字符出现了0次或者1次，要么不出现，要么只出现一次
`{m}`	前一个字符出现m次
`{m,}`	前一个字符至少出现m次
`{m,n}`	前一个字符出现m到n次

4.边界

字符	作用
`^`	字符串开头
`$`	字符串结尾
`\b`	单词边界，即单词和空格间的位置，比如'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'
`\B`	非单词边界，和上面的\b相反
`\A`	匹配字符串的开始位置
`\Z`	匹配字符串的结束位置

5.分组

用()表示的就是要提取的分组，一般用于提取子串，
比如：^(\d{3})-(\d{3,8})$：从匹配的字符串中提取出区号和本地号码

字符	作用
验证通过后回复加群即可获得加群链接(不要把机器人玩坏了！！！)～～～欢迎各种像我一样的Py初学者，Py大神加入，一起愉快地交流学♂习，van♂转py。相关文章小猪的Python学习之旅 —— 3.正则表达式 re模块 Python中通过re模块使用正则表达式，该模块提供的几个常用方法： 1.匹配 re.match(pat... 2021-03-04 开启我的生信学习之旅。先给自己定几个小目标： 1. 学习Linux； 2. 学习Python； 3. 学习R语言；... # 小猪的Python学习之旅 —— 18.Python微信转一句话概括本文：利用itchat，监控特定信息，转发到特定微信群～引言：上一篇小猪的Python学习之旅 ... 封面 python学习之旅 python爬虫学习-day7-实战目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B... Python 基础爬虫目录目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B... python爬虫学习-day5-selenium 目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B... python爬虫学习-day6-ip池目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B... python爬虫学习-day3-BeautifulSoup 目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B... python爬虫学习-day4-使用lxml+xpath提取内容目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B... 网友评论 yunhom:a_list = tr.findAll('a') 返回的是2个a标签其实直接 tr.findAll('a')[0] 就直接拿到第一个了，这样不用再通过再一次的循环判断去排除详情那个a标签了 coder_pig:嗯，对的，之前是语法不熟悉，懒得改了，能拿到数据就行，哈哈机器学习程序员大数据爬虫Python AI Sql 呆鸟的Python数据分析本文标题：小猪的Python学习之旅 —— 3.正则表达式本文链接：https://www.haomeiwen.com/subject/hdkpgxtx.html 延伸阅读那年盛夏诗歌环境监察队工作总结范文优秀教师学习心得范文华胥引的读后感300字《Its red》教学反思范文农资购销的合同范本竞选中队委优秀演讲稿辞金蹈海的成语解释《世纪宝鼎》公开课教案设计因为爱你，所以牵挂今生今世红尘醉——美到一个90后的内心独白致已逝去的高中年华深度阅读您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！情人节母亲节重阳节清明节端午节植树节元宵节妇女节愚人节圣诞节父亲节教师节儿童节劳动节青年节建军节万圣节平安夜光棍节中秋节国庆节感恩节腊八节更多话题栏目导航机器学习程序员大数据爬虫Python AI Sql 呆鸟的Python数据分析摄影故事互联网读书旅行热点阅读 [都市]伤痕都会变成曾经-后记 time模块笔记 [古言] 飘零（3）亲子日记第七篇搜索引擎看完这个，终于知道我为什么不适合考研了：不只是因为成绩至_曾经做好事背冤枉的人男人女人一篇文章搞定WKWebView（iOS 8之后最优Web解决框架学虎八上数学期末复习打卡第28天机器学习机器学习与深度学习资料 ArcGIS Python编程案例(14)-五个常用Python SourceInsight使用技巧 nodejs操作MySQL其实很简单大数据工程师（开发）面试系列（6）机器学习(Machine Learning)&深度学习( 掘金 Python 系列文章分享最近几年阿里巴巴部分大数据工程师笔试题及其解答带你快速学会30个Excel函数用Python爬取美团外卖APP评论程序员开源 BI 工具 Metabase 简介对象和引用 Python中list的实现 iOS 开发入门领域驱动设计DDD和CQRS落地字符编码的奥秘传统 Ajax 已死，Fetch 永生 nodejs中异步 Web 服务器性能与站点访问性能优化思路 mysql & mongo aggregate 大数据爬虫Python AI Sql 复盘-如何使用金数据打造一次成功的选美活动 SQLite数据库框架--FMDB MySQL基本操作你们是不是很缺大数据工程师？大数据猿们，是时候想想这几个问题了史上最全Python数据分析学习路径图 NodeJS基础使用Visual Studio Code搭建Python开发环境数据分析\|移动应用APP数据分析方法论 Python即时网络爬虫项目: 内容提取器的定义呆鸟的Python数据分析数据分析（三）:建立数据分析框架的思路和方法数据分析使用 pandas 玩转股票数据如何一步步从数据产品菜鸟走到骨干数据产品？一个非常好用的data pipeline管理工具 airflow 一元线性回归的细节如何进入互联网行业聚类、K-Means、例子、细节层次聚类分类算法之朴素贝叶斯（NaiveBayes）关于我们\|服务条款\|联系我们\|小猪的Python学习之旅 —— 3.正则表达式\|投稿指南\|网站地图\|RSS订阅\|排版工具\|手机版提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏 Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3 本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！

字符

作用

验证通过后回复加群即可获得加群链接(不要把机器人玩坏了！！！)～～～
欢迎各种像我一样的Py初学者，Py大神加入，一起愉快地交流学♂习，van♂转py。

小猪的Python学习之旅 —— 3.正则表达式
re模块 Python中通过re模块使用正则表达式，该模块提供的几个常用方法： 1.匹配 re.match(pat...
2021-03-04
开启我的生信学习之旅。先给自己定几个小目标： 1. 学习Linux； 2. 学习Python； 3. 学习R语言；...
# 小猪的Python学习之旅 —— 18.Python微信转
一句话概括本文：利用itchat，监控特定信息，转发到特定微信群～引言：上一篇小猪的Python学习之旅 ...
封面
python学习之旅
python爬虫学习-day7-实战
目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...
Python 基础爬虫目录
目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...
python爬虫学习-day5-selenium
目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...
python爬虫学习-day6-ip池
目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...
python爬虫学习-day3-BeautifulSoup
目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...
python爬虫学习-day4-使用lxml+xpath提取内容
目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...