import re markdown
1、在规则中可以用.来匹配包括换行在内的所有字符
2、在r规则中,^表示匹配开头位置
3、当字符串有多行时,在re.findall(r,s,re.M),大M表示多行
4、当正则的规则有多行(/d)时,要在表达式中加入大S,re.findall(r,s,re.S)
5、在正则规则中,小括号可以帮助两个存在或关系的元素分组,(\.com|\.cn),findall会优先返回小括号中的分组数据
6、可以用小括号标志来查找固定目的的东西:
r = r" net1 ip = ( .+)",就能返回后面的IP地址,.表示任意字符,+表示大于等于1个
爬虫
1、网址源代码中的图片其实都是一个网络地址,http开通,.jpg结尾的那种,可以用正则表达式筛选
2、import urllib是一个获取url网页地址的模块,urllib.open(url),将他赋值给page,然后page.read()读取地址,return读取后的地址中的数据
3、匹配页面图片,r = r"src = “.+ \.jpg" width" ,之后对正则进行编译,bianyi = re.compile(r), 然后将找出来的结果赋值给一个变量jieguo = re.findall(bianyi,yuandizhi)
4、urllib.urlretrieve(x,' 123.jpg')可以下载括号中地址x所对应的元素,此处可以用'%s.jpg' % x x +=1 '来给每个图片按顺序命名
网友评论