美文网首页
5.正则表达式

5.正则表达式

作者: 李晓否 | 来源:发表于2017-10-21 19:48 被阅读0次
  第五部分开始,我新写的随笔是从python核心编程上总结的,详细查找可以在书中。
  正则表达式是在书籍的第一章节。

之前写过一些爬虫的程序,所以对这方面还是挺熟悉的。不过既然是笔记就截取点容易忘的,当做笔记了。
  在python中主要的正则表达式的库是re模块,但是对于爬虫来说,针对html的结构的爬取还有其他更方便的库,例如Xpath等,这在我写的新浪爬虫中都有。
以下贴以下正则的用法:




以上就是一些正则的表达式的意义。

特别需要注意的一点是,在匹配特殊字符的时候需要使用转义符号\,比如匹配点时候要用.,否则就会和上边图中的.所冲突。
以下是re模块中的一些常用的函数:




?=表示的意义是
这个叫断言,只匹配一个位置比如,你想匹配一个“人”字,但是你只想匹配中国人的人字,不想匹配法国人的人
就可以用一下表达式(?=中国)人所以,表达式与其他通配符连用才能起到效果。
(?=.*[[a-z])\d+这个就表示 匹配以“任意字符连着一个小写字母”开头的数字,只匹配数字。
与之相对的是(?<=exp)这个是放后面的。
另外还需要注意的一点是在字符串前加上r,表示原始字符串,即字符串中的所有符号都表示一个字符,而没有特殊含义。
例如:r'\tss' 输出之后为\ss,而没有r则输出为 ss,即前边一个tab,后边两个ss。
最后,对于想要更深入研究正则表达式的,建议阅读由 Jeffrey E. F. Friedl.编写的Mastering Regular Expressions

相关文章

  • 正则表达式 python 实现

    正则表达式 1.原子2.元字符3.模式修正4.贪婪模式5.懒惰模式 1.原子 原子是正则表达式中最基本的组成单位,...

  • 5.正则表达式

    之前写过一些爬虫的程序,所以对这方面还是挺熟悉的。不过既然是笔记就截取点容易忘的,当做笔记了。在python中主要...

  • js-day17

    A.我今天学了什么 1.正则表达式 2.定义正则表达式 3.字符集 4.预定义字符集 5.数量词 6.选择和分组 ...

  • Linux常用操作命令

    1.wc -l2.grep3.正则表达式4.lsof -i:7001 查看 7001商品占用的进程。5.使用Rde...

  • 正则表达式(re)

    正则表达式
    1.通配符号 2.非打印字符 3.特殊字符 4.限定符 5.定位符 ...

  • JavaSE Day11、12 正则表达式(本章内容后面再研究

    1. 简述一下正则表达式是什么?可以达到什么效果? 2. 单字符匹配 3. 预定义字符 4. 量词 5. Stri...

  • JavaScript标准库系列——RegExp对象(三)

    目录 导语 1.理解正则表达式 2.模式的规则 3.字符串和正则实例的属性和方法 4.检索实例 5. 小结 导语 ...

  • Linux命令行与Shell脚本编程大全-shell正则表达式

    本章内容: 定义正则表达式 了解基本正则表达式 扩展正则表达式 创建正则表达式 定义正则表达式 正则表达式是你定义...

  • 正则相关

    正则表达式基本语法 正则表达式常见字符 正则表达式特殊字符 正则表达式数量词 正则表达式边界匹配 正则表达式逻辑或...

  • 正则表达式系列-1

    正则表达式系列-1正则表达式系列-2正则表达式系列-3正则表达式系列-4 什么是正则表达式 正则表达式就是用事先定...

网友评论

      本文标题:5.正则表达式

      本文链接:https://www.haomeiwen.com/subject/vihwuxtx.html