美文网首页解密大数据
作业-01获取网络数据的原理

作业-01获取网络数据的原理

作者: liyli | 来源:发表于2017-07-02 10:22 被阅读0次

    作业内容回顾

    选择某个自己感兴趣的数据领域,写出以下几个方面的内容:

    - 要爬取的数据类别

    - 对应的数据源网站

    - 爬取数据的url

    - 数据筛选规则(选做)


    因为自己最近在考虑房屋置换的问题,所以想选一个有关历史房产交易数据的方向。

    搜了一下,杭州市的房产信息相对公开度较高,在杭州市二手房交易监管服务平台上,可以查询到各大地产经纪挂牌的二手房具体信息,更新速度也比较快,应该可以作为一个可信度高的数据资源。

    要爬取的数据类别

    根据网站上显示的挂牌房源信息,爬取房源的城区、小区名称、面积、委托价格、挂牌机构、挂牌时间

    点击查看具体的房源介绍的时候会发现,里面多了房源的规划用途、所在楼层,这两个也需要爬取;

    凡是包含“其他挂牌机构信息”的,属于重复的数据信息,应该进行筛选,以发布日期最新的为准;

    爬取数据的url

    - 房源基本信息url:http://jjhygl.hzfc.gov.cn/webty/gpfy/gpfySelectlist.jsp

    - 点击具体房源后的跳转url,基本格式为

    'jjhygl.hzfc.gov.cn/webty/WebFyAction_toGpxxInfo.jspx?gpfyid=' + gpfyid

    数据筛选原则

    查看了一下网址http://jjhygl.hzfc.gov.cn/webty/gpfy/gpfySelectlist.jsp的源代码,猜测list[i]应该是个变量,网站表格列出的其实就是变量的各个参数,如下图

    网站页面 网页源代码

    那么下面就好推测了,比如list[i].fwtybh指的是房屋统一编号,list[i].cqmc指的是城区名称,lisg[i].xqmc就是小区名称等等。

    点开某个具体的房源之后,页面上包括所属小区、城区、建筑面积、规划用途、委托价格、挂牌时间、所在楼层等信息。这些都在收集范围之内。

    同时也需要提取“其他挂牌机构信息”,比较它的"挂牌时间”与前面的挂牌时间,选择最新的一个,并根据最新的信息重新提取房源价格。也可以考虑将多个挂牌时间的价格相互比较,从而对整体走势进行合理推测。

    相关文章

      网友评论

        本文标题:作业-01获取网络数据的原理

        本文链接:https://www.haomeiwen.com/subject/xnrncxtx.html