美文网首页
数据爬取之正则匹配

数据爬取之正则匹配

作者: 月下独酌123 | 来源:发表于2018-08-08 16:14 被阅读0次

re模块规则

匹配字符.jpg

匹配中文:[\u4e00-\u9fa5]


匹配数量.jpg
匹配边界.jpg
匹配分组.jpg

匹配方法

  • match方法:从起始位置开始匹配,匹配一次就结束
  • search方法:从任何位置开始匹配,匹配一次就结束
  • findall方法:匹配全部,返回一个列表
  • finditer方法:匹配全部,返回一个迭代器
  • split方法:分割字符串,返回一个列表
  • sub方法:替换

模式

  • re.l 忽略大小写的匹配模式
  • re.S 可匹配任何字符,包括换行符
  • re.X 冗余模式,忽略正则表达式中的空白和#号的注释
  • re.M 多行模式

贪婪和非贪婪

python里数量词默认是贪婪的,总是尝试匹配尽可能多的字符;在*、?、+、{m,n}后面加上?,使贪婪编程非贪婪

相关文章

  • 数据爬取之正则匹配

    re模块规则 匹配中文:[\u4e00-\u9fa5] 匹配方法 match方法:从起始位置开始匹配,匹配一次就结...

  • 正则尝试

    主要收获 首次使用正则匹配爬取。 使用yield返回数据 利用json写入文本

  • 云计算D2

    jsoup爬网页 正则表达式匹配小组兴趣页

  • 数据爬取之Xpath

    XML XML指可扩展标记语言(EXtensible Markup Language) XML和HTTP的区别 X...

  • str.extract()

    先介绍str.extract(),可用正则从字符数据中抽取匹配的数据,只返回第一个匹配的数据。注意,正则表达式中必...

  • XPATH

    当我们在网页中爬取数据中,如果我们需要从网页的HTML标签中获取数据时,使用正则表达式进行匹配会比较繁琐,因此引入...

  • 正则匹配库

    正则匹配用户名: 正则匹配用户名: 正则匹配手机号或者固定电话: 匹配中文: 正则匹配用户密码: 正则匹配电子邮箱...

  • Nginx location的正则匹配

    Nginx location的正则匹配 Nginx正则匹配的匹配规则

  • 正则匹配搜索文案

    需求描述:搜索匹配列表数据 实现方案:用正则全局替换

  • 爬取猫眼电影评分等信息

    使用正则表达式爬取猫眼电影top100的评分等信息 正则匹配 可以用进程池来加快加载速度

网友评论

      本文标题:数据爬取之正则匹配

      本文链接:https://www.haomeiwen.com/subject/crkxbftx.html