用xpath提取内容后,业务需要将图片也要提出并标志图片所在的位置。
因此解决方案是 将:
s='''<div id="news-content" class="news-content">
<!--content_start-->
<p>
<img src="https://pic2.pedaily.cn/18/201812/20181207213896709670.jpg" alt="清科-2018年法律顾问排名">
</p>
<p>
<img src="https://pic2.pedaily.cn/18/201812/20181207213994469446.jpg" alt="清科-2018年法律顾问排名">
</p>
<p>
<img src="https://pic2.pedaily.cn/18/201812/20181207213932743274.jpg" alt="清科-2018年法律顾问排名">
</p>
</div>'''
替换为:
s='''<div id="news-content" class="news-content">
<!--content_start-->
<p>
img src="https://pic2.pedaily.cn/18/201812/20181207213896709670.jpg" alt="清科-2018年法律顾问排名"
</p>
<p>
img src="https://pic2.pedaily.cn/18/201812/20181207213994469446.jpg" alt="清科-2018年法律顾问排名"
</p>
<p>
img src="https://pic2.pedaily.cn/18/201812/20181207213932743274.jpg" alt="清科-2018年法律顾问排名"
</p>
</div>'''
将图片标签替换为文本,如此既可以标记处位置,有可以识别出是哪张图片。
操作方式是:re.sub(r'<(img .*)?>', '《\g<1>》',s)
s = re.sub(r'<(img .*)?>', '《\g<1>》',s)
然后在获取内容 string(/.) 即可。
网友评论