美文网首页
正则应用实例

正则应用实例

作者: 书唐瑞 | 来源:发表于2021-01-05 23:17 被阅读0次

    有这么一个需求,将下面字符串中的链接筛选出来

    这是第一个图片<img href="https://img.infuq.com">,
    这是第二个图片<img src="http://v.infuq.com" />
    

    其中一个是用href,另一个是用src. 使用Python代码处理如下

    import re
    
    def find():
        content = '这是第一个图片<img href="https://img.infuq.com">,这是第二个图片<img src="http://v.infuq.com" />'
        ret = re.findall(r'(?<=[(src|href)]=")[^"]+(?=")', content)
        print(ret)
    
    if __name__ == '__main__':
        find()
    

    这个问题的关键点就是正则该如何写,能写出来正则,那么问题基本就解决了.正则表达式如下

    (?<=[(src|href)]=")[^"]+(?=")
    

    然而,上面的理解是不准确的
    分析如下

    (src|href)这个正则所能匹配的是src和href这两个串.
    [(src|href)]这个正则所能匹配的是( s r c | h r e f ) 这10个字符,而不是src和href这两个串

    因此,我们可以把最终的正则表示成如下

    # href和src的最后一个字符分别是f和c
    (?<=[fc]=")[^"]+(?=")
    

    但是这样还是不精确的,假如要匹配的内容是如下

    这是第一个图片<img href="https://img.infuq.com">,
    这是第二个图片<img src="http://v.infuq.com" >
    这是第三个图片kf="https://img.infuq.com" />
    

    我们最终的需求是要href和src的链接,使用 (?<=[fc]=")[^"]+(?=")能把kf="https://img.infuq.com"也匹配出来.

    先在Sublime验证下


    在这里插入图片描述

    或者

    在这里插入图片描述

    一样也能精确匹配到需要的内容.

    因此Python的代码如下

    import re
    
    def find():
        content = '这是第一个图片<img href="https://img.infuq.com">,这是第二个图片<img src="http://v.infuq.com" kf="http://q.infuq.com" />'
        
        # 这种写法在Sublime可以,但是在Python中不支持
        # ret = re.findall(r'((?<=href=")|(?<=kf="))[^"]+(?=")', content)
        
        ret = re.findall(r'(?<=href=")[^"]+(?=")|(?<=src=")[^"]+(?=")', content)
        print(ret)
    
    if __name__ == '__main__':
        find()
    

    相关文章

      网友评论

          本文标题:正则应用实例

          本文链接:https://www.haomeiwen.com/subject/qvegoktx.html