美文网首页
正则表达式替换匹配到的内容re.sub

正则表达式替换匹配到的内容re.sub

作者: 佑岷 | 来源:发表于2019-05-14 17:55 被阅读0次

用xpath提取内容后,业务需要将图片也要提出并标志图片所在的位置。
因此解决方案是 将:

s='''<div id="news-content" class="news-content">
                                    <!--content_start-->
                                    <p>
<img src="https://pic2.pedaily.cn/18/201812/20181207213896709670.jpg" alt="清科-2018年法律顾问排名">
</p>
<p>
<img src="https://pic2.pedaily.cn/18/201812/20181207213994469446.jpg" alt="清科-2018年法律顾问排名">
</p>
<p>
<img src="https://pic2.pedaily.cn/18/201812/20181207213932743274.jpg" alt="清科-2018年法律顾问排名">
</p>
                                </div>'''

替换为:

s='''<div id="news-content" class="news-content">
                                    <!--content_start-->
                                    <p>
img src="https://pic2.pedaily.cn/18/201812/20181207213896709670.jpg" alt="清科-2018年法律顾问排名"
</p>
<p>
img src="https://pic2.pedaily.cn/18/201812/20181207213994469446.jpg" alt="清科-2018年法律顾问排名"
</p>
<p>
img src="https://pic2.pedaily.cn/18/201812/20181207213932743274.jpg" alt="清科-2018年法律顾问排名"
</p>
                                </div>'''

将图片标签替换为文本,如此既可以标记处位置,有可以识别出是哪张图片。

操作方式是:re.sub(r'<(img .*)?>', '《\g<1>》',s)

s = re.sub(r'<(img .*)?>', '《\g<1>》',s)

然后在获取内容 string(/.) 即可。

相关文章

网友评论

      本文标题:正则表达式替换匹配到的内容re.sub

      本文链接:https://www.haomeiwen.com/subject/fcyeaqtx.html