美文网首页
基于scrapy框架的Xpath提取小记

基于scrapy框架的Xpath提取小记

作者: Nise9s | 来源:发表于2018-03-06 17:41 被阅读0次

定位具有指定attribute的tag,比如如下tag:

<div class="box_con" id="rwb_zw">
        <div class="box_pic"></div>
        <p style="text-indent: 2em;">
    人民网北京3月6日电 据工信部网站消息,工信部等七部门日前印发《新能源汽车动力蓄电池回收利用试点实施方案》,决定在京津冀、长三角、珠三角、中部区域等选择部分地区,开展新能源汽车动力蓄电池回收利用试点工作。试点内容包括构建回收利用体系、探索多样化商业模式、推动先进技术创新与应用、建立完善政策激励机制等四方面。</p>
<p style="text-indent: 2em;">
    构建回收利用体系。通知指出,充分落实生产者责任延伸制度,由汽车生产企业、电池生产企业、报废汽车回收拆解企业与综合利用企业等通过多种形式,合作共建、共用废旧动力蓄电池回收渠道。鼓励试点地区与周边区域合作开展废旧动力蓄电池的集中回收和规范化综合利用,提高回收利用效率。坚持产品全生命周期理念,建立动力蓄电池产品来源可查、去向可追、节点可控的溯源机制,对动力蓄电池实施全过程信息管理,实现动力蓄电池安全妥善回收、贮存、移交和处置。</p>
<p style="text-indent: 2em;">
    探索多样化商业模式。通知要求,充分发挥市场化机制作用,鼓励产业链上下游企业进行有效的信息沟通和密切合作,以满足市场需求和资源利用价值最大化为目标,建立稳定的商业运营模式,推动形成动力蓄电池梯次利用规模化市场。加强大数据、物联网等信息化技术在动力蓄电池回收利用中的应用,建设商业化服务平台,构建第三方评估体系,探索线上线下动力蓄电池残值交易等新型商业模式。</p>
<p style="text-indent: 2em;">
    推动先进技术创新与应用。通知指出,鼓励新能源汽车、动力蓄电池生产企业在产品开发阶段优化产品回收和资源化利用的设计;开展废旧动力蓄电池余能检测、残值评估、快速分选和重组利用、安全管理等梯次利用关键共性技术研究,鼓励在余能检测、残值评估等阶段适当引入第三方评价机制;开展废旧动力蓄电池有价元素高效提取、材料性能修复、残余物质无害化处置等再生利用先进技术的研发攻关。同时,形成一系列动力蓄电池回收利用相关标准和技术规范,推动废旧动力蓄电池无害化、规范化、高值化利用。</p>
<p style="text-indent: 2em;">
    建立完善政策激励机制。通知指出,鼓励试点地区将动力蓄电池回收利用工作作为落实生态文明建设要求、推动绿色制造产业发展的重要内容及举措,研究支持新能源汽车动力蓄电池回收利用的政策措施,探索促进动力蓄电池回收利用的相关政策激励机制,充分调动各方积极性,促进动力蓄电池回收利用。</p>
<p style="text-indent: 2em;">
    据悉,试点工作实施年限原则上不超过2年。方案规划指出,到2020年,建立完善动力蓄电池回收利用体系,探索形成动力蓄电池回收利用创新商业合作模式。建设若干再生利用示范生产线,建设一批退役动力蓄电池高效回收、高值利用的先进示范项目,培育一批动力蓄电池回收利用标杆企业,研发推广一批动力蓄电池回收利用关键技术,发布一批动力蓄电池回收利用相关技术标准,研究提出促进动力蓄电池回收利用的政策措施。</p>
<div class="zdfy clearfix"></div><center><table border="0" align="center" width="40%"><tbody><tr></tr></tbody></table></center>
        <div class="box_pic"></div>
        <div class="edit clearfix">(责编:王仁宏、崔东)</div>
      </div>

我们想要提取其内部所有文字。
想要定位,可以使用如下xpath:

/html/body//div[@class="box_con"]//p/descendant::text()

此外如果想提取类似内容可以使用or或者and,比如下面的这个xpath:

/html/body//div[contains(@class, "box_con")]//p/descendant::text()

可以定位到属性class中包含“box_con”这个string的div,同样的,可以使用or:

/html/body//div[contains(@class, "box_con") or contains(@class, "text_con") ]//p/descendant::text()

相关文章

  • 基于scrapy框架的Xpath提取小记

    定位具有指定attribute的tag,比如如下tag: 我们想要提取其内部所有文字。想要定位,可以使用如下xpa...

  • (四) Selector

    从网页中提取数据有很多方法。Scrapy使用了一种基于 XPath 和 CSS 表达式机制: Scrapy Sel...

  • 爬虫(4-3)

    4-3 xpath的用法 - 1scrapy通过xpath来提取我们需要的值下面通过具体的URL来提取具体的值 x...

  • python爬虫scrapy应用场景说明

    Scrapy 是一个用 Python 编写的快速、开源的 web 爬行框架,用于在基于 XPath 的选择器的帮助...

  • Scrapy的基本使用(四)——提取信息的方法

    Scrapy爬虫支持多种HTML信息提取方法: • Beautiful Soup• lxml• re• XPath...

  • Scrapy功能介绍

    scrapy是一个为爬取网站,提取结构化数据而创建的一个爬虫框架,scrapy基于python,是目前python...

  • 解析网页常用的三种方式

    一、scrapy 框架 info1 = response.xpath('//div[contains(@class...

  • 三、用Css来提取网页

    scrapy提供了两种提取方法,Xpath和Css。 Xpath用起来觉得好麻烦,有点笨,我还是比较喜欢Css的提...

  • 2021-07-21

    Scrapy框架的基本使用 scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构...

  • XPath使用小结

    使用scrapy爬虫,不可避免的需要对网页结构进行分析并提取,其中用到的一个重要的工具就是XPath。XPath可...

网友评论

      本文标题:基于scrapy框架的Xpath提取小记

      本文链接:https://www.haomeiwen.com/subject/ukerfftx.html