美文网首页
正则表达式替换匹配到的内容re.sub

正则表达式替换匹配到的内容re.sub

作者: 佑岷 | 来源:发表于2019-05-14 17:55 被阅读0次

    用xpath提取内容后,业务需要将图片也要提出并标志图片所在的位置。
    因此解决方案是 将:

    s='''<div id="news-content" class="news-content">
                                        <!--content_start-->
                                        <p>
    <img src="https://pic2.pedaily.cn/18/201812/20181207213896709670.jpg" alt="清科-2018年法律顾问排名">
    </p>
    <p>
    <img src="https://pic2.pedaily.cn/18/201812/20181207213994469446.jpg" alt="清科-2018年法律顾问排名">
    </p>
    <p>
    <img src="https://pic2.pedaily.cn/18/201812/20181207213932743274.jpg" alt="清科-2018年法律顾问排名">
    </p>
                                    </div>'''
    
    

    替换为:

    s='''<div id="news-content" class="news-content">
                                        <!--content_start-->
                                        <p>
    img src="https://pic2.pedaily.cn/18/201812/20181207213896709670.jpg" alt="清科-2018年法律顾问排名"
    </p>
    <p>
    img src="https://pic2.pedaily.cn/18/201812/20181207213994469446.jpg" alt="清科-2018年法律顾问排名"
    </p>
    <p>
    img src="https://pic2.pedaily.cn/18/201812/20181207213932743274.jpg" alt="清科-2018年法律顾问排名"
    </p>
                                    </div>'''
    

    将图片标签替换为文本,如此既可以标记处位置,有可以识别出是哪张图片。

    操作方式是:re.sub(r'<(img .*)?>', '《\g<1>》',s)

    s = re.sub(r'<(img .*)?>', '《\g<1>》',s)
    

    然后在获取内容 string(/.) 即可。

    相关文章

      网友评论

          本文标题:正则表达式替换匹配到的内容re.sub

          本文链接:https://www.haomeiwen.com/subject/fcyeaqtx.html