美文网首页
正则表达式一---基本介绍

正则表达式一---基本介绍

作者: IT的咸鱼 | 来源:发表于2018-10-19 13:39 被阅读0次

可以参考:http://www.runoob.com/regexp/regexp-syntax.html
为什么要学正则表达式:
实际上爬虫一共就四个主要步骤:

  • 明确目标 (要知道你准备在哪个范围或者网站去搜索)
  • 爬 (将所有的网站的内容全部爬下来)
  • 取 (去掉对我们没用处的数据)
  • 处理数据(按照我们想要的方式存储和使用)

之前我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来

正则表达式概述

正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。
Regular Expression的“Regular”一般被译为“正则”、“正规”、“常规”。此处的“Regular”即是“规则”、“规律”的意思,Regular Expression即“描述某种规则的表达式”之意。

Python 的 re 模块

  • 在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。 有一点需要特别注意的是,正则表达式使用 对特殊字符进行转义,所以如果我们要使用原始字符串,只需加一个 r 前缀,示例: re 模块的一般使用步骤如下:
  • 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象
  • 通过 Pattern 对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个 Match 对象。
  • 最后使用 Match 对象提供的属性和方法获得信息,根据需要进行其他的操作

compile 函数

  • compile 函数用于编译正则表达式,生成一个 Pattern 对象,它的一般使用形式如下:
import re 
#将正则表达式编译成 Pattern 对象 
pattern= re.compile(r'\d+')
修饰符号 描述
re.I 使用匹配对大小写不敏感(不区分大小写)
re.S 使.匹配包括换行符在内的所有字符
re.M 多行匹配
re.L 做本地化识别
在上面,我们已将一个正则表达式编译成 Pattern 对象,接下来,我们就可以利用 pattern 的一系列方法对文本进行匹配查找了。 Pattern 对象的一些常用方法主要有:
match 方法 从起始位置开始查找,一次匹配
search 方法 从任何位置开始查找,一次匹配
findall 方法 全部匹配,返回列表
finditer 方法 全部匹配,返回迭代器
split 方法 分割字符串,返回列表
sub 方法 替换

相关文章

  • 正则表达式语法

    下面先来介绍一下正则表达式的基本语法。 正则表达式基本语法 实例分析 匹配用户手机号根据上面的语法,我用OC语言写...

  • 正则表达式一---基本介绍

    可以参考:http://www.runoob.com/regexp/regexp-syntax.html为什么要学...

  • Python正则表达式分组 Group

    在正则表达式介绍中,我们学习了正则表达式的基本用法。列举了一些简单的例子。在这一部分,将介绍更高级的用法,捕获分组...

  • JAVA正则表达式入门

    1.正则表达式介绍 正则表达式算起来也是一个很庞大的语言系统,在所有的开发语言中基本都支持正则表达式,它可以很方便...

  • 正则表达式所引发的DoS攻击(Redos)

    正则表达式(或正则表达式)基本上是搜索模式。例如,表达式[cb]at将匹配cat和bat。这篇文章不是介绍一个正则...

  • MySQL用正则表达式进行搜索

    用正则表达式进行搜索 1.正则表达式介绍 ​ 对于基于的过滤(或者甚至是某些不那么基本的过滤),可以用匹配、比...

  • 「r<-workshop」第四期:Tidyverse 实战批量建

    本次主要介绍了一些基本的正则表达式用法,然后介绍使用 tidyverse 组合拳进行批量建模和可视化。 本文代码和...

  • Python基础入门 - 正则表达式与综合实战

    1. 初识正则表达式 1.1 介绍 步骤介绍正则表达式入门及应用正则表达式的进阶正则表达式案例 1.2 正则表达式...

  • 字符串

    介绍 本节内容将介绍在 Python 里处理字符串的基本概念,以及正则表达式的使用,以及介绍几种常见的字符串处理算...

  • 【Python入门】23.正则表达式

    摘要:正则表达式的基本介绍;常用字符和语法介绍;re模块;贪婪匹配 *写在前面:为了更好的学习python,博主记...

网友评论

      本文标题:正则表达式一---基本介绍

      本文链接:https://www.haomeiwen.com/subject/kyejzftx.html