正则表达式
1.调用模式
import re
pattern = re,compile(r'',re.S)
result = re.findall(pattern,text)
#查找全部
result = re.find()
#????????????????
result = re.match()
#匹配否和条件的第一个
2.匹配模式
1. re.match(pattern,text)
#尝试从字符串的开始开始匹配
2. re.search(pattern,html)
#在字符串内查找模式匹配,只找到第一个匹配然后返回
‘’‘
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
’‘’
3. re.sub(pattern,reply,text,count)
#用string替换reply,count为替换个数
#用于替换字符串中的匹配项
4. re.spilt(r'\s+',text')
#分割字符串;按空格分割
5.re.findall(pattern,text)
#
6.re.compile(r'',re.S)
#
小测试:
url = 'http://www.mzitu.com/'
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
html = requests.get(url,headers=headers).text
#print(html)
pattern = re.compile(r'<a href="(.*?)".*?>(.*?)</a>',re.S)
results = re.findall(pattern,html)
#print(results)
for result in results:
print(result)
网友评论