美文网首页我爱编程Python Scrapy 爬虫项目
通过Scrapy 抓取链家网所有地区二手房数据

通过Scrapy 抓取链家网所有地区二手房数据

作者: Max之谜 | 来源:发表于2018-01-05 17:22 被阅读0次

    使用Python抓取深圳链家房地产数据,保存至mysql数据库,并进行数据分析
    逻辑:
    1、通过任意一个链家网址进入,抓取链家二级域名网址,如sz.lianjia.com;bj.lianjia.com
    2、通过二级链接组装二手房链接地址,如sz.lianjia.com/ershoufang/
    3、获取二手房页面的筛选条件标签:地区、价格等,如ershoufang/p2/,再次进行组装,与当前请求的url
    --目标格式为sz.lianjia.com/ershoufang/p2/,可查询深圳市200-300万的房子
    4、查询当前筛选条件共多少页,获取页面的页码最大值,进行循环生成最终请求的url
    --如sz.lianjia.com/ershoufang/p2/pg2/
    5、进行请求最终url,并保存页面房产信息
    6、保存至mysql数据库

    Configuration

    前端框架:Bootstrap
    爬虫框架:Scrapy+BeautifulSoup
    数据库:Mysql

    Project log

    Creation date:2017/12/22 10:41
    Version:0.1
    Describe:

    • Create Project
    • Use Scrapy Requests
    • Use Bs4 Responses Data

    Version:0.2
    Update date:2017/12/25 20:37

    • Optimization data,(Id,Region,Garden,Layout,Size,Direction,Renovation,Elevator,Price)
    • Save To Mysql Data

    Version:0.3

    • Analysis data

    项目进展

    1、目前卡在了0.3版本

    原因:

    • 在看《使用python进行数据分析》
    • 学习Numpy,暂不知为何需要使用这个
    • 学习pandas,学习使用DataFrame与Series
    • 预备学习:pyplot
    • 还没有学习:matplotlib
      实际原因:
    • scrapy单机抓取太慢,电脑6天不关机,过滤重复数据后,才抓了18万条有效数据
    • 预计学习分布式抓取
    • 增量式爬取
    • 定时更新

    等待完善

    项目地址:https://gitee.com/supermaxwu/ShenzhenRealestate

    相关文章

      网友评论

        本文标题:通过Scrapy 抓取链家网所有地区二手房数据

        本文链接:https://www.haomeiwen.com/subject/tkusnxtx.html