基于scrapy框架的Xpath提取小记

作者: Nise9s | 来源:发表于2018-03-06 17:41 被阅读0次

基于scrapy框架的Xpath提取小记
(四) Selector
爬虫（4-3）
python爬虫scrapy应用场景说明
Scrapy的基本使用（四）——提取信息的方法
Scrapy功能介绍
解析网页常用的三种方式
三、用Css来提取网页
2021-07-21
XPath使用小结

定位具有指定attribute的tag，比如如下tag:

<div class="box_con" id="rwb_zw">
        <div class="box_pic"></div>
        <p style="text-indent: 2em;">
    人民网北京3月6日电 据工信部网站消息，工信部等七部门日前印发《新能源汽车动力蓄电池回收利用试点实施方案》，决定在京津冀、长三角、珠三角、中部区域等选择部分地区，开展新能源汽车动力蓄电池回收利用试点工作。试点内容包括构建回收利用体系、探索多样化商业模式、推动先进技术创新与应用、建立完善政策激励机制等四方面。</p>
<p style="text-indent: 2em;">
    构建回收利用体系。通知指出，充分落实生产者责任延伸制度，由汽车生产企业、电池生产企业、报废汽车回收拆解企业与综合利用企业等通过多种形式，合作共建、共用废旧动力蓄电池回收渠道。鼓励试点地区与周边区域合作开展废旧动力蓄电池的集中回收和规范化综合利用，提高回收利用效率。坚持产品全生命周期理念，建立动力蓄电池产品来源可查、去向可追、节点可控的溯源机制，对动力蓄电池实施全过程信息管理，实现动力蓄电池安全妥善回收、贮存、移交和处置。</p>
<p style="text-indent: 2em;">
    探索多样化商业模式。通知要求，充分发挥市场化机制作用，鼓励产业链上下游企业进行有效的信息沟通和密切合作，以满足市场需求和资源利用价值最大化为目标，建立稳定的商业运营模式，推动形成动力蓄电池梯次利用规模化市场。加强大数据、物联网等信息化技术在动力蓄电池回收利用中的应用，建设商业化服务平台，构建第三方评估体系，探索线上线下动力蓄电池残值交易等新型商业模式。</p>
<p style="text-indent: 2em;">
    推动先进技术创新与应用。通知指出，鼓励新能源汽车、动力蓄电池生产企业在产品开发阶段优化产品回收和资源化利用的设计；开展废旧动力蓄电池余能检测、残值评估、快速分选和重组利用、安全管理等梯次利用关键共性技术研究，鼓励在余能检测、残值评估等阶段适当引入第三方评价机制；开展废旧动力蓄电池有价元素高效提取、材料性能修复、残余物质无害化处置等再生利用先进技术的研发攻关。同时，形成一系列动力蓄电池回收利用相关标准和技术规范，推动废旧动力蓄电池无害化、规范化、高值化利用。</p>
<p style="text-indent: 2em;">
    建立完善政策激励机制。通知指出，鼓励试点地区将动力蓄电池回收利用工作作为落实生态文明建设要求、推动绿色制造产业发展的重要内容及举措，研究支持新能源汽车动力蓄电池回收利用的政策措施，探索促进动力蓄电池回收利用的相关政策激励机制，充分调动各方积极性，促进动力蓄电池回收利用。</p>
<p style="text-indent: 2em;">
    据悉，试点工作实施年限原则上不超过2年。方案规划指出，到2020年，建立完善动力蓄电池回收利用体系，探索形成动力蓄电池回收利用创新商业合作模式。建设若干再生利用示范生产线，建设一批退役动力蓄电池高效回收、高值利用的先进示范项目，培育一批动力蓄电池回收利用标杆企业，研发推广一批动力蓄电池回收利用关键技术，发布一批动力蓄电池回收利用相关技术标准，研究提出促进动力蓄电池回收利用的政策措施。</p>
<div class="zdfy clearfix"></div><center><table border="0" align="center" width="40%"><tbody><tr></tr></tbody></table></center>
        <div class="box_pic"></div>
        <div class="edit clearfix">(责编：王仁宏、崔东)</div>
      </div>

我们想要提取其内部所有文字。
想要定位，可以使用如下xpath:

/html/body//div[@class="box_con"]//p/descendant::text()

此外如果想提取类似内容可以使用or或者and,比如下面的这个xpath:

/html/body//div[contains(@class, "box_con")]//p/descendant::text()

可以定位到属性class中包含“box_con”这个string的div,同样的,可以使用or:

/html/body//div[contains(@class, "box_con") or contains(@class, "text_con") ]//p/descendant::text()

网友评论

本文标题：基于scrapy框架的Xpath提取小记

本文链接：https://www.haomeiwen.com/subject/ukerfftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

基于scrapy框架的Xpath提取小记

相关文章

基于scrapy框架的Xpath提取小记

(四) Selector

爬虫（4-3）

python爬虫scrapy应用场景说明

Scrapy的基本使用（四）——提取信息的方法

Scrapy功能介绍

解析网页常用的三种方式

三、用Css来提取网页

2021-07-21

XPath使用小结

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读