美文网首页
Scrapy学习——正则表达式

Scrapy学习——正则表达式

作者: 旅行路上的吕行 | 来源:发表于2017-08-16 11:39 被阅读0次

    重要性

    爬取html中内部的内容时经常需要只要标签中的部分内容,这时就需要正则表达式

    特殊字符

    ^      以一个x内容为开头的
    .      代表任何字符
    *      表示任意多次 
    $      以x结尾的
    ?      贪婪匹配,从左至右```
           也就是会寻找下一组的符合条件的值
    x+     至少出现一次x
    {y}    前面的字符至少出现y次
    {y,}   前面的字符出现y次及以上
    {y,z}  前面的字符出现y到z次
    y|z    符合y条件或者z条件即可
    ()     将正则分组,取值时按组选取
    []     取[x,y,z]中的任何一个都可,或者写成[0~9]则取0到9中任意值,[^x]只要不为x
    \s     空格
    \S     只要不为空格
    \w     任意字符等效于[0~9a~zA~Z_]
    \W     只要不为[0~9a~zA~Z_]即可
    \d     只要为字即可
    

    eg:

    # -*-coding: utf-8 -*-
    
    import re
    # 引入re模块,python的正则模块
    line = 'bobby1123'
    reg_str = '^b.*'
    if re.match(reg_str,line):
        print('yes')
    

    .*出生于(\d{4}[/-]\d{1,2})

    相关文章

      网友评论

          本文标题:Scrapy学习——正则表达式

          本文链接:https://www.haomeiwen.com/subject/zhsvrxtx.html