Scrapy框架抓取安居客房源信息

作者: Lazy1 | 来源:发表于2016-11-08 19:53 被阅读124次

Scrapy框架抓取安居客房源信息
Scrapy1.4.0之抓取58同城房源详解（一）
Python系列爬虫之Scrapy实战 | 爬取并简单分析安居客
Python爬虫：和我一起学习scrapy（一）
python 爬虫之路之Scrapy框架
Scrapy安装
初识Scrapy框架+爬虫实战(7)-爬取链家网100页租房信息
Scrapy框架爬取全国房源信息
Win32 Python3.6爬虫-Scrapy简介与安装
Scrapy定时爬虫总结&Docker/K8s部署

1.我们抓取这个地址 http://bj.zu.anjuke.com/ditie/dt20-s435/

2.首先我们来抓取发布的房源标题，分析下结构

Paste_Image.png

3.通过上面的分析我们看到我们需要房源的title在：

                div>h3>a 这样的一个结构我们就可以拿到a标签了

from scrapy.spider import Spider
from scrapy.selector import Selector

from tutorial.items import AnJuKeItem


class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://bj.zu.anjuke.com/ditie/dt20-s435/"
    ]

    def parse(self, response):
        sel = Selector(response)
        titleList = sel.xpath('//div/h3/a')
        for sel in titleList:
            item = AnJuKeItem()
            item['link'] = sel.xpath('@href').extract()
            item['title'] = sel.xpath('text()').extract()
            yield item

这样我们就拿到了页面的房屋标题，和进入详情界面的url,为我们下一步抓取电话做准备

4.增加了抓取电话和联系地址，并且保存数据到本地mysql

5.其中创建数据库字段的时候我们要手动制定该字符的编码格式，详情见源码

项目地址持续更新：https://github.com/l123456789jy/ScrapyAnJuKe