美文网首页
爬虫的提取(2)--re正则

爬虫的提取(2)--re正则

作者: 紫弟 | 来源:发表于2018-12-25 10:13 被阅读0次

python正则表达式基本元字符


.   通配符,匹配所有字符

^abc  匹配以abc开始的字符串

abc$  匹配以abc结尾的字符串

[abc]  匹配字符集合

[A-Z0-9] 匹配字符范围

ed|ing|s 匹配指定的字符串,诸如ed或者ing或者s

*   前面项目0个或者多个,如a*/[a-z]* (也叫Kleene闭包)

+   前面项目1个或者多个,如a+、[a-z]+

?   前面项目0个或者1个,如a?、[a-z]?

{n}   重复n次

{n,}  至少重复n次

{,n}  重复不多于n次

{m,n}  至少重复m次不多于n次

a(b|c)+  括号表示操作符的范围

正则表达式符号:

\b 词边界

\d 任何数字等于[0-9]

\D 任何非数字等于[^0-9]

\s 任何空白字符[\t\n\r\f\v]

\S 任何非空白字符[^\t\n\r\f\v]

\w 任何字母[A-Za-z0-9]

\W 任何非字母[^A-Za-z0-9]

\t 制表符

\n 换行符

贪婪模式
在python中默认采用的是贪婪模式,使用非贪婪模式的话,只需要在量词后面直接加上一个问号”?”。所以,我们可以将贪婪模式理解为:在整个表达式匹配成功的前提下,尽可能多的匹配。

非贪婪模式也就是将我们例子中的正则表达式“ab+”改为”ab+?”

import re
# 将正则表达式编译成pattern对象
pattern = re.compile(r'hello.*\!')
# 使用pattern对象匹配文本,获得匹配结果,无法匹配时返回None
match = pattern.match('str')
#以规则做分割
match = pattern.spilt('')
#替换一些匹配的数据
match = pattern.sub('')
#替换匹配数据的次数
match = pattern.subn('')

相关文章

  • 爬虫的提取(2)--re正则

    python正则表达式基本元字符 贪婪模式在python中默认采用的是贪婪模式,使用非贪婪模式的话,只需要在量词后...

  • xpath

    爬虫的提取有三种方式,xptah(基本够用),re(正则),字符串方法 使用xpath来提取数据 路径表达式 ...

  • 正则表达式

    正则表达式 (?P .*)提取字符串re.M,re.S,贪婪,非贪婪正则表达式,html标签 提取Python正则...

  • 爬虫处理——结构化数据操作

    爬虫处理之结构化数据操作 目录清单 1.正则表达式提取数据 2.正则表达式案例操作 1.Xpath提取数据 Xpa...

  • python BeautifualSoup使用

    爬虫过程中解析html 获取关注信息,常用的方法有正则匹配re、xpath、BeautifualSoup,re 正...

  • Scrapy的基本使用(四)——提取信息的方法

    Scrapy爬虫支持多种HTML信息提取方法: • Beautiful Soup• lxml• re• XPath...

  • 爬虫处理——结构化数据操作

    爬虫处理之结构化数据操作 目录清单 正则表达式提取数据 正则表达式案例操作 Xpath提取数据 Xpath案例操作...

  • 爬虫0040:数据筛选

    爬虫处理之结构化数据操作 ——编辑:大牧莫邪 目录清单 正则表达式提取数据 正则表达式案例操作 Xpath提取数据...

  • 爬虫之道-正则表达式1

    应该明确的是,在python爬虫中,正则表达式应该是分为两部分: re模块中各个方法的运用 正则表达式语法 re模...

  • requests 获取淘宝搜索页面信息

    教程来自 b站,mooc Python网络爬虫与信息提取, 使用requests re 模块issue : 获取...

网友评论

      本文标题:爬虫的提取(2)--re正则

      本文链接:https://www.haomeiwen.com/subject/pvmxlqtx.html