美文网首页大数据 爬虫Python AI SqlPython小哥哥
Python中正则表达式与模式匹配!

Python中正则表达式与模式匹配!

作者: 14e61d025165 | 来源:发表于2019-05-11 15:27 被阅读0次

在之前找工作过程中,面试时经常被问到会不会python,懂不懂正则表达式。心里想:软件的东西和芯片设计有什么关系? 咱也不知道因为啥用这个,咱也不敢问啊! 在网上搜索到了一篇关于脚本在ASIC领域中应用的文章(原文见参考文献1),里边提到了python的用武之地:

<tt-image data-tteditor-tag="tteditorTag" contenteditable="false" class="syl1557559600772" data-render-status="finished" data-syl-blot="image" style="box-sizing: border-box; cursor: text; color: rgb(34, 34, 34); font-family: "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", "Helvetica Neue", Arial, sans-serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial; display: block;"> image

<input class="pgc-img-caption-ipt" placeholder="图片描述(最多50字)" value="" style="box-sizing: border-box; outline: 0px; color: rgb(102, 102, 102); position: absolute; left: 187.5px; transform: translateX(-50%); padding: 6px 7px; max-width: 100%; width: 375px; text-align: center; cursor: text; font-size: 12px; line-height: 1.5; background-color: rgb(255, 255, 255); background-image: none; border: 0px solid rgb(217, 217, 217); border-radius: 4px; transition: all 0.2s cubic-bezier(0.645, 0.045, 0.355, 1) 0s;"></tt-image>

Python学习交流群:1004391443,这里是python学习者聚集地,有大牛答疑,有资源共享!小编也准备了一份python学习资料,有想学习python编程的,或是转行,或是大学生,还有工作中想提升自己能力的,正在学习的小伙伴欢迎加入学习。

image

本文以《Python编程快速上手——让繁琐工作自动化》书中的示例,讲述利用python实现文本中特定内容提取的方式。

二、提取特定内容示例

需求:找出文本中所有的电话号码和邮件地址。设计方案:在剪贴板的文本中提取出所有与电话号码和邮件地址格式匹配的字符串。有了需求和设计方案,现根据电话号码和邮箱地址格式编写正则表达式。先来看看程序代码,再做讲解。

<pre spellcheck="false" style="box-sizing: border-box; margin: 5px 0px; padding: 5px 10px; border: 0px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-variant-numeric: inherit; font-variant-east-asian: inherit; font-weight: 400; font-stretch: inherit; font-size: 16px; line-height: inherit; font-family: inherit; vertical-align: baseline; cursor: text; counter-reset: list-1 0 list-2 0 list-3 0 list-4 0 list-5 0 list-6 0 list-7 0 list-8 0 list-9 0; background-color: rgb(240, 240, 240); border-radius: 3px; white-space: pre-wrap; color: rgb(34, 34, 34); letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">1 import pyperclip,re
2
3 #phoneNumber:415-555-4242 x331
4 #email address:info@nostarch.com
5
6 phoneRegex = re.compile(r'''( #0 all
7 (\d{3}|(\d{3}))? #1 area code
8 (\s|-|.)? #2 separator
9 (\d{3}) #3 first 3 digits
10 (\s|-|.) #4 separator
11 (\d{4}) #5 last 4 digits
12 (\s(ext|x|ext.)\s(\d{2,5}))? #6 7 8extension
13 )''',re.VERBOSE)
14
15 emailRegex = re.compile(r'''( #0 all
16 [a-zA-Z0-9._%+-]+ # username
17 @ # @ symbol
18 [a-zA-Z0-9.-]+ # domain name
19 (.[a-zA-Z]{2,4}) #1 dot-something
20 )''',re.VERBOSE)
21
22 #Find matches in clipboard text.
23 text = str(pyperclip.paste())
24 mo1 = phoneRegex.findall(text)
25 mo2 = emailRegex.findall(text)
26 print(mo1)
27 print(mo2)
28 matches = []
29 for groups in phoneRegex.findall(text):
30 phoneNum = '-'.join([groups[1],groups[3],groups[5]])
31 if groups[8] != '':
32 phoneNum += ' x' + groups[8]
33 matches.append(phoneNum)
34
35 for groups in emailRegex.findall(text):
36 matches.append(groups[0])
37
38 #Copy results to the clipboard
39 if len(matches) > 0:
40 pyperclip.copy('\n'.join(matches))
41 print('Copied to clipboard:')
42 print('\n'.join(matches))
43 else:
44 print('No phone numbers or email address found.')
</pre>

此处电话号码的格式是:三个数字组成的区号(可选),三个数字,四个数字,任意数空格+ext/x/ext.+任意数空格+2到5个数字组成的分机号(可选)。每个部分间以“-”号连接。邮箱地址格式:由字母、数字以及_%+-符号组成的用户名,@符号以及.后的域名,域名由2-4个字母和数字集合组成。根据上述模式可编写对应的正则表达式。

python的模式匹配有一个简单固定的套路,import导入re包,regex = re.compile('''<正则表达式>''')。<模式匹配的内容列表> = regex.findall(<待搜索字符串>)。三步搞定。编写正则表达式时,在字符串前加r防止字符转义。将各个部分分组并换行以提高代码的可读性,此时需要将re.VERBOSE作为re.compile()函数的第二个参数传入来忽略表达式中的空白和换行。

三、运行结果

复制代码首部注释掉的文本,然后运行程序。结果如下:

<tt-image data-tteditor-tag="tteditorTag" contenteditable="false" class="syl1557559600783" data-render-status="finished" data-syl-blot="image" style="box-sizing: border-box; cursor: text; color: rgb(34, 34, 34); font-family: "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", "Helvetica Neue", Arial, sans-serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial; display: block;"> image

<input class="pgc-img-caption-ipt" placeholder="图片描述(最多50字)" value="" style="box-sizing: border-box; outline: 0px; color: rgb(102, 102, 102); position: absolute; left: 187.5px; transform: translateX(-50%); padding: 6px 7px; max-width: 100%; width: 375px; text-align: center; cursor: text; font-size: 12px; line-height: 1.5; background-color: rgb(255, 255, 255); background-image: none; border: 0px solid rgb(217, 217, 217); border-radius: 4px; transition: all 0.2s cubic-bezier(0.645, 0.045, 0.355, 1) 0s;"></tt-image>

image

前两行打印出了匹配内容的列表,之后以自定义的统一格式打印欲搜索的内容。程序运行结果正确。本文以一个小例子测试了python正则表达式提取文本特定内容的功能,之后想尝试利用python自动生成verilogHDL中module的例化模板。

相关文章

  • Python正则表达式

    正则表达式中,常用的匹配模式: python 正则表达式的语法: 使用正则表达式,需要导入模块: 输出结果:['h...

  • 正则表达式

    正则表达式是对字符串进行过滤的规则 python中re模块提供了正则表达式的匹配操作 常见匹配模式 参考 注意事项...

  • 正则表达式

    作用:用来匹配字符串。 在Python中,正则表达式是特殊的字符序列,检查一个字符串是否与某种模式匹配。 格式-...

  • Python -- 正则表达式 regular express

    作用:用来匹配字符串。 在Python中,正则表达式是特殊的字符序列,检查一个字符串是否与某种模式匹配。 格式-...

  • Python高级第六天

    正则表达式(模式匹配) 一、标准库模块re Python3中使用re模块支持正则表达式(Regular Expre...

  • JavaScript 与正则表达式 -- 匹配模式

    在正则表达式中,一般所说的匹配模式指的是匹配时遵循的规则。通过设置匹配模式,可以改变正则表达式的匹配规则。 指定方...

  • 10个正则技巧

    1.匹配模式 正则表达式查找与模式匹配的字符串部分 在JavaScript中,它们是在正斜杠之间//或使用new ...

  • python正则表达式

    正则表达式是用于查找和替换字符串中的模式的字符序列,它是用于匹配文本中的模式的工具。 在python中,我们有“r...

  • Python学习路线:定义实现最短匹配的正则表达式

    Python学习路线:定义实现最短匹配的正则表达式 1、需求 我们正在尝试用正则表达式对文本模式做匹配,但识别出来...

  • 正则表达式中字符串模式匹配方法exec和match的区别

    正则表达式中字符串模式匹配方法exec和match的区别 js正则表达式中字符串模式匹配方法exec()和matc...

网友评论

    本文标题:Python中正则表达式与模式匹配!

    本文链接:https://www.haomeiwen.com/subject/zdbxaqtx.html