正则表达式的用处
在我们对一段未知字符串进行查找验证时,正则表达式的模式匹配为我们节约了大量的时间与资源。
为什么必须会正则表达式
在很多文本的提取中会出现很多无用的信息需要我们从大量的字符串中提取出我们需要的内容,或者从一段字符串中验证应该存在的字符串。这个时候爬虫里面HTML提取中自带的方法就不能办到。
正则表达式的特殊字符
- ^ $ * ? + {2} {2,} {2,10}|
- [] [^] [a-z]
- \s \S \w \W
- [\u4E00-\u9FA4] () \d
这些属于常用的正则表达式的特殊符号。
例如:
import re
line='julianlee107'
#假如我们只需要提取出前面的字母部分
reg='^[a-zA-Z]+[^0-9]'
re.match(reg,line)
在上一段代码中,在[]外的^代表必须以什么开头,[]里面的代码代表着非。
正则表达式中有各种写法,有的效率高有的效率低,需要多加思考和实验。
网友评论