美文网首页python+scrapy爬虫+小心得
scrapy爬虫时如何利用xpath爬取某个div里所有p的内容

scrapy爬虫时如何利用xpath爬取某个div里所有p的内容

作者: yuanxiaolan | 来源:发表于2016-05-27 19:45 被阅读0次

    当我们想爬取div class="articlebody"下p中所有文本的时候,如果这样写

    item['body'] = (response.xpath('//div[@class="articleBody"]/ptext()').extract()[0])

    会发现仅仅是第一个p中的内容,而不是所有的,此时应该利用的是for循环。

    divs=response.xpath('//div[@class="articleBody"]')

    body=""

    for p in divs.xpath('.//p/text()'):

    body=body+ p.extract().strip()

    item['body']=body

    相关文章

      网友评论

        本文标题:scrapy爬虫时如何利用xpath爬取某个div里所有p的内容

        本文链接:https://www.haomeiwen.com/subject/edrfdttx.html