Spider基础之正则表达式

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-03-01 22:40 被阅读0次

Spider基础之正则表达式
用Java实现网络爬虫二之Java正则表达式
Spider基础之XPath
Spider基础
Spider基础之网络编程
Spider基础之http协议
（二）爬虫框架(3)——CrawlSpiders是什么鬼
Scrapy基础——CrawlSpider详解
Spider基础之XML和JSON
Scrapy基础——Spider

学习自刘大拿的Python课程

正则表达式（RegularExpression, re）

信息传递来，需要在文本中查找，当文本信息太大时，需要一套系统来快速查找。

re：在正常的文本中去找
Xpath：在xml文件中找
此套规则和语言无关，固定规则。

re

用于使用单个字符串来描述，寻找符合某规则的字符串。
常用来检索，替换某些模式的文本。
e.x.银行卡号部分数字覆盖：识别银行卡号 → 覆盖

正则写法

.(点号):表示任意一个字符，除了\n, 比如查找所有的为一个的字符  \.
[]: 匹配中括号中列举的任意字符，比如[L,Y,0] , LLY, Y0, LIU （只能由方括号内字符组成，所以第一、二个是，第三不是）
\d: 任意一个数字
\D：除了数字都可以
\s:表示空格，tab键
\S:除了空白符号
\w: 单词字符， 就是a-z, A-Z, 0-9, _
\W: 除了以上\w的
*： 表示前面内容重复零次或者多次。e.x. \w*  表示\w类字符在前面重复多次 或 未出现过。
+: 表示前面内容至少出现一次
？： 前面才出现的内容零次或者一次
{m,n}:允许前面内容出现最少m次，最多n次
^:匹配字符串的开始，从字符串的头开始找。
$:匹配字符串的结尾，从结尾开始匹配，而且必须得匹配。
\b:匹配单词的边界
():对正则表达式内容进行分组， 从第一个括号开始，编号逐渐增大
    验证一个数字：^\d$
    必须有一个数字，最少一位：^\d+$
    只能出现数字，且位数为5-10位：^\d{5,10}$
    注册者输入年龄，要求16岁以上，99岁以下：^[16-99]$
    只能输入英文字符和数字：^[A-Za-z0-9]$
    验证qq号码：[0-9]{5,12}

\A: 只匹配字符串开头， \Aabcd, 则abcd
\Z: 仅匹配字符串末尾， abcd\Z, abcd
|: 左右任意一个，即 或 关系
(?P<name>…): 分组，除了原来的编号再制定一个别名（Django常用）。 (?P<id>12345){2}， 1234512345
(?P=name): 引用分组

RE使用大致步骤（撸代码用jupyter Notebook）

使用compile将表示正则的字符串编译为一个pattern对象
通过pattern对象提供一系列方法对文本进行查找匹配，获得匹配结果，一个Match对象
最后利用Match对象提供的属性和方法获得信息，根据需要进行操作

RE常用函数

group()获得一个或者多个分组匹配的字符串，当要获得整个匹配的字符串时，直接使用group或者group(0)
start: 获取分组匹配的字符串在整个字符串中的起始位置，参数默认为0.
end: 获取分组匹配的字符串在整个字符串中的结束位置，参数默认为0.
span: 跨度（）返回的结构(start(group),end(group))

search() vs. match()

search(str,[,pos[,endpos]]):在字符串中查找匹配，pos
和endpos表示起始位置
findall:查找所有
finditer：查找，返回一个iter结果。(可迭代，可用for loop访问)

# 导入相关包
1. import re

# 查找数字
# r表示字符串不转义
p = re.compile(r'\d+')
# 在字符串"alalaala0"中进行查找，按照规则p指定的正则进行查找
m = p.match("alalaala64") # 匹配开头
s = p.search("alalaala64") # 匹配所有
print(m)
print(s)
↓↓↓
None
<re.Match object; span=(8, 10), match='64'>

sub 替换

sub(rep1,str[,count])

匹配中文

大部分中文内容表示范围是[u4e00-u9fa5],不包括全角标点

贪婪与非贪婪

贪婪：尽可能多的匹配，（*）表示贪婪匹配
非贪婪：找到符合条件的最小内容即可，（？）表示非贪婪
正则默认使用的贪婪匹配

练习

# 导入相关包
import re

# 查找数字
# r表示字符串不转义
p = re.compile(r'\d+') # 匹配至少出现一次数字，即将连着的数字找出
# 在字符串中进行查找，按照规则p制定的正则进行查找
# 参数5，30表示在字符串中查找的范围
m = p.match("afear34353sfaifjaeif45igjaria566aigja33222",5,30)
n = p.match("cbagfed1CDEFGAB77ooo",7,18)

print(m)
print(n)
# 说明：①match可输入参数表示起始；
# ②查找结果只有一个，表示第一次进行匹配成功的内容
# ③起始位置必须满足条件？
# ④大拿好像讲错了，什么贪婪、非贪婪，这里1是可以查找的呀
print(m[0])
print(m.start(0))
print(m.end(0))

<re.Match object; span=(5, 10), match='34353'>
<re.Match object; span=(7, 8), match='1'>
34353
5
10

import re

# 对compile进行编译,编译一个正则
p = re.compile(r'([a-z]+) ([a-z]+)', re.I) # 查找的内容能分成两组，组之间有空格。
# 意为：我要查找一个内容，里面东西必须得能被分成两组，每组至少一个小写字母，且只能有小写字母
# I 参数表示不区分大小写

m = p.match("I am realy a man. ")
print(m)
print("m.groups() = ",m.groups())
print(m.group(0),"----",m.group(1))
print(m.start(0),"----",m.start(2))
print(m.end(0),"----",m.end(1))

<re.Match object; span=(0, 4), match='I am'>
m.groups() =  ('I', 'am')
I am ---- I
0 ---- 2
4 ---- 1

# 查找
- search(str,[,pos[,endpos]]):在字符串中查找匹配，pos和endpos表示起始位置
- findall:查找所有
- finditer:查找，返回一个iter结果

import re

p = re.compile(r'\d+')
m = p.search("one12rwo34three567four")
print(m.group())

rst = p.findall("one12rwo34three567four")
print(type(rst))
print(rst)

<class 'list'>
['12', '34', '567']

# sub替换
import re

p = re.compile(r'(\w+) (\w+)')
s = "hello 123 wang 456 xiaojing, i love you"

rst = p.sub(r'Replace you',s)
print(rst)

Replace you Replace you xiaojing, Replace you you

# 匹配中文
import re

title = u'世界 你好， hello moto'
p = re.compile(r'[u4e00-\u9fa5]+')
rst = p.findall(title)

print(rst)

['世界', '你好', 'hello', 'moto']

# 贪婪
import re 

title = u'<div>name</div><div>age</div>'

p1 = re.compile(r"<div>.*</div>") # 贪婪搜索
p2 = re.compile(r"<div>.*?</div>") # 非贪婪搜索

m1 = p1.search(title)
print(m1.group())

m2 = p2.search(title)
print(m2.group())

    <div>name</div><div>age</div>
    <div>name</div>

网友评论

本文标题：Spider基础之正则表达式

本文链接：https://www.haomeiwen.com/subject/fckghhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spider基础之正则表达式

正则表达式（RegularExpression, re）

re

正则写法

RE使用大致步骤（撸代码用jupyter Notebook）

RE常用函数

search() vs. match()

sub 替换

匹配中文

贪婪与非贪婪

练习

相关文章

Spider基础之正则表达式

用Java实现网络爬虫二之Java正则表达式

Spider基础之XPath

Spider基础

Spider基础之网络编程

Spider基础之http协议

（二）爬虫框架(3)——CrawlSpiders是什么鬼

Scrapy基础——CrawlSpider详解

Spider基础之XML和JSON

Scrapy基础——Spider

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读