美文网首页
python--正则

python--正则

作者: 昆仑草莽 | 来源:发表于2019-04-03 16:10 被阅读0次

正则表达式是一个单独的部分,无论什么语言,都需要正则表达式。
正则表达式:正则表达式是用了匹配或提取字符串的。正则表达式的语法无论在哪里使用都是相同的。先看一个实例:
判断用户提交的邮箱格式是否正确

import re
yx = '13900003333@163.com'
yxx = re.findall(r'[a-zA-Z0-9]+@[a-zA-Z0-9]\.com$',yx)
print(yxx)
返回:13900003333@163.com
yx = 'abcdefg@163.com'
yxx = re.findall(r'[a-zA-Z0-9]+@[a-zA-Z0-9]\.com$',yx)
print(yxx)
返回:abcdefg@163.com
yx = '13900003333@163.cn'
yxx = re.findall(r'[a-zA-Z0-9]+@[a-zA-Z0-9]\.com$',yx)
print(yxx)
返回:[] #匹配失败
yx = '13900003333163.com'
yxx = re.findall(r'[a-zA-Z0-9]+@[a-zA-Z0-9]\.com$',yx)
print(yxx)
返回:[] #匹配失败

在上例中,r'[a-zA-Z0-9]+@[a-zA-Z0-9].com$' ‘ r’ 是表示python的防转义,而 \ 是正则表达式的防转义,这是两个不同的转义

re模块

在python中要使用正则,必须要导入re模块。

import re
re 中的常用方法

1.findall 方法:在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表.

re.findall(pattern,string)  #(匹配的语法规则,字符串)
import re
a = 'hello world pthon hello world pthon hello world pthon'
b = re.findall('llo',a)
print(b)
返回:['llo', 'llo', 'llo']
b = findall('123',a)
print(b)
返回:[] #字符串中没有数字,所以匹配失败,返回空 []

2.match方法:re.match 尝试从字符串的起始位置匹配一个模式,匹配成功 返回的是一个匹配对象(这个对象包含了我们匹配的信息),如果不是起始位置匹配成功的话,match()返回的是空,
注意:match只能匹配到一个

import re
a = 'hello world pthon hello world pthon hello world pthon'
b = re.match('llo',a)
print(b)
返回:None
print(b.group())
返回:hel #group() 可以查看匹配的内容

a = 'hello world pthon hello world pthon hello world pthon'
b = re.match('hel',a)
print(b)
返回:<re.Match object; span=(0, 3), match='hel'> #span 是字符所在的x下标取值区间

3.search方法:re.search 扫描整个字符串,匹配成功 返回的是一个匹配对象(这个对象包含了我们匹配的信息)
注意:search也只能匹配到一个,找到符合规则的就返回,不会一直往后找

import re
a = 'hello world pthon hello world pthon hello world pthon'
b = re.search('llo',a)
print(b)
返回:<re.Match object; span=(2, 5), match='llo'>

a = 'hello world pthon hello world pthon hello world pthon'
b = re.search('234',a)
print(b)
返回:None
#group() 可以查看匹配的内容,同match相同。

re.match与re.search的区别:
re.match只匹配字符串的开始位置找,如果字符串开始不符合正则表达式,则匹配失败,
re.search:匹配整个字符串,如果一直找不到,返回是空的,没有结果
4.sub方法:re.sub 是替换字符串。

import re
a = 'hello world hello pythpn hello java'
b = re.sub('hello','hi',a)  #('原字符','替换的字符',string)
print(b)
返回:hi world hi pythpn hi java

在正则表达式中,如果加了()就会只提取()里面的内容。

import re
a = '''
    <div id="redGame"><em></em><span>
       <a target="_blank" href="http://app.tanwan.com/htmlcode/9093.html"></a>
       <a target="_blank" href="https://app.tanwan.com/htmlcode/9094.html"></a>
       <a target="_blank" href="https://app.tanwan.com/htmlcode/9095.html"></a>
       <a target="_blank" href="https://app.tanwan.com/htmlcode/9096.html"></a>
       <a target="_blank" href="https://app.tanwan.com/htmlcode/9097.html"></a>
       <a target="_blank" href="http://app.tanwan.com/htmlcode/9098.html"></a>
       <a target="_blank" href="https://app.tanwan.com/htmlcode/9099.html"></a>
       <a target="_blank" href="https://app.tanwan.com/htmlcode/9100.html"></a></span>
    </div>
'''

b = re.findall('href="(.*?)"',a)  #只会提取()内的内容,href当作一个标签
for i in b:
    print(i)
返回:
http://app.tanwan.com/htmlcode/9093.html
https://app.tanwan.com/htmlcode/9094.html
https://app.tanwan.com/htmlcode/9095.html
https://app.tanwan.com/htmlcode/9096.html
https://app.tanwan.com/htmlcode/9097.html
http://app.tanwan.com/htmlcode/9098.html
https://app.tanwan.com/htmlcode/9099.html
https://app.tanwan.com/htmlcode/9100.html

元字符

本身具有特殊意义的字符叫做元字符,比如:* ,$ ,[] ,. ,等。

单字符匹配 图1
代表数量的元字符 图2
表示边界的元字符(锚点元字符) 图3
分组匹配 图4
管道 |
import re
a = 'hello world pthon hello world pthon hello world pthon'
b = re.findall('hello|python',a)
print(b)
返回:['hello', 'pthon', 'hello', 'pthon', 'hello', 'pthon']

字符组:
a = 'hello world pthon hello world pthon hello world pthon'
b = re.findall('[he]',a)  #整个中括号只代表一个字符
print(b)
返回:['h', 'e', 'h', 'h', 'e', 'h', 'h', 'e', 'h']

a = 'abbj abbc abbd'
b = re.findall('abb[abd]',a)
print(b)
返回:['abbd']

比较[] 与 []{}

import re
a = '1209809wiahiwqdi821e01'
b = re.findall('[a-zA-Z0-9]{5}',a)
print(b)
返回:['12098', '09wia', 'hiwqd', 'i821e']

a = '1209809wiahiwqdi821e01'
b = re.findall('[a-zA-Z0-9]',a)
print(b)
返回:['1', '2', '0', '9', '8', '0', '9', 'w', 'i', 'a', 'h', 'i', 'w', 'q', 'd', 'i', '8', '2', '1', 'e', '0', '1']

反向字符类(取反): ^

import re 
a = '1209809 alsj rpokgtp'
b = re.findall('[^a-zA-Z0-9]',a)  # ^表示除了[]里面的规则外的其他字符,^写在[]前面表示从头取,写在规则内,表示取反。
print(b)
返回:[' ', ' ']

转义元字符: \ 正则规则中 \ 可以转义其他的特殊元字符.

\*  ,   \.  ,   \+  ,   \?   等

贪婪与非贪婪

正则默认都是用贪婪模式去匹配数据的,就是尽可能多的匹配符合要求的数据,在非贪婪模式下,始终找最短匹配

import re
a = 'abbbbbbbbc'
b = re.findall('ab*',a)  #('ab*c',a)#如果*后面有 c ,则必须要满足后面c的匹配。
b1 = re.findall('ab*?',a)  #前面的元字符(*)是正则规则,后面的?是非贪婪模式
print(b)
print(b1)
返回:
['abbbbbbbb']  #贪婪模式是尽可能取除多的字符串。* 可以取出所有。
['a']  #非贪婪模式是尽可能少取字符串,* 可以是0.

一个元字符表示贪婪模式,只有在后面加?可以变为非贪婪模式。

相关文章

  • python--正则

    正则表达式是一个单独的部分,无论什么语言,都需要正则表达式。正则表达式:正则表达式是用了匹配或提取字符串的。正则表...

  • Python--正则匹配

    正则表达式匹配规则 Python 的 re 模块 在 Python 中,我们可以使用内置的 re 模块来使用正则表...

  • Python--报错RecursionError: maximu

    Python--报错RecursionError: maximum recursion depth exceede...

  • Python--报错TabError: inconsistent

    Python--报错TabError: inconsistent use of tabs and spaces i...

  • python--正则表达式

    什么是正则表达式 基本说来,正则表达式是一种用来描述一定数量文本的模式。Regex代表Regular Expres...

  • python--正则表达式

    如果不知道正则表达式是什么,可以看一下此篇入门文章关于正则中的表达式符号和特殊字符,可以看此速查表,部分内容与py...

  • python--正则表达式

    正则表达式定义: 正则表达式是字符串处理的有力工具,正则表达式使用预定义的模式去匹配一类具有共同特征的字符串,可以...

  • 2018-01-16

    Python--查看函数的参数列表 import inspect inspect.getargspec(函数名) ...

  • 如何用python实现Markowitz投资组合优化

    Python--【研究】如何用python实现Markowitz投资组合优化 Python实现马科维茨有效边界 但...

  • Python--之正则表达式一基础

    1.表达式基础正则表达式是一个非常强大的字符串处理工具,几乎任何关于字符串的操作都可以使用正则表达式来完成,经常和...

网友评论

      本文标题:python--正则

      本文链接:https://www.haomeiwen.com/subject/edgabqtx.html