1、什么是正则表达式?
一种规则字符串,非python特有,需导入re模块,起到过滤、清洗数据的作用
2、用法详解
正则表达式表2.1、re.match()
最常规的匹配:
最常规匹配常规匹配显得很繁琐,使用.*代替所有字符串:
泛匹配使用括号和group(数字)可以获取匹配的目标结果:
匹配特定目标贪婪匹配:.*会默认匹配尽量多的字符
贪婪匹配非贪婪匹配:使用?采用非贪婪匹配
非贪婪匹配匹配模式:因为.无法匹配换行符
匹配模式re.S 改变匹配模式:
使用re.S转义:
转义2.2、re.search()
re.match()是从字符串开头开始匹配的,一旦开头不匹配,那么整个匹配就失败了。re.search()会扫描整个字符串,反馈第一个匹配成功的结果。
re.search() 匹配练习1 匹配练习2 匹配练习32.3、re.findall()
因为re.rearch()只能返回匹配的第一个结果,如果想返回所有符合匹配规则的结果,就要使用re.findall(),如果有匹配结果,返回的是一个列表。
re/findall() 打印列表及元祖 匹配练习42.4、re.sub()
把数字替换成空 第二个参数的作用(替换成的结果)如果要替换成的结果里包含匹配的结果,需要用 \数字 获取到匹配的结果
\1表示把第一个匹配结果替换掉a标签
替换a标签 打印歌名列表2.5、re.compile()
把正则字符串编译成正则表达式对象,以便在后面的匹配中复用。
re.compile()使用爬取豆瓣图书
爬取豆瓣图书实战练习
网友评论