Scrapy框架抓取安居客房源信息

作者: Lazy1 | 来源:发表于2016-11-08 19:53 被阅读124次

    1.我们抓取这个地址 http://bj.zu.anjuke.com/ditie/dt20-s435/

    2.首先我们来抓取发布的房源标题,分析下结构

    Paste_Image.png

    3.通过上面的分析我们看到我们需要房源的title在:

                    div>h3>a 这样的一个结构我们就可以拿到a标签了
    
    from scrapy.spider import Spider
    from scrapy.selector import Selector
    
    from tutorial.items import AnJuKeItem
    
    
    class DmozSpider(Spider):
        name = "dmoz"
        allowed_domains = ["dmoz.org"]
        start_urls = [
            "http://bj.zu.anjuke.com/ditie/dt20-s435/"
        ]
    
        def parse(self, response):
            sel = Selector(response)
            titleList = sel.xpath('//div/h3/a')
            for sel in titleList:
                item = AnJuKeItem()
                item['link'] = sel.xpath('@href').extract()
                item['title'] = sel.xpath('text()').extract()
                yield item
    
    
    

    这样我们就拿到了页面的房屋标题,和进入详情界面的url,为我们下一步抓取电话做准备

    4.增加了抓取电话和联系地址,并且保存数据到本地mysql

    5.其中创建数据库字段的时候我们要 手动制定该字符的编码格式,详情见源码

    项目地址持续更新:https://github.com/l123456789jy/ScrapyAnJuKe

    相关文章

      网友评论

        本文标题:Scrapy框架抓取安居客房源信息

        本文链接:https://www.haomeiwen.com/subject/atkuuttx.html