美文网首页解密大数据
爬虫入门01作业 phsyke

爬虫入门01作业 phsyke

作者: phsyke | 来源:发表于2017-07-03 12:38 被阅读0次

    爬虫入门01作业 phsyke:

    一直以来对爬虫挺感兴趣的,最近因为工作上的一些原因,需要的数据采集会比较多,需要更高效的收集有用的数据。

    Q1.需要爬取的数据类别

    拍卖行交易网站所更新的拍卖信息是不定时的,所以在设计爬取数据类别的时候首先确定的是:

    1:每日更新的数据,因为是工作日更新数据,所以在上班之前更新一份便可以。

    2:更新的数据分类,比如房产拍卖,设备物资拍卖。

    3:限制的范围 广东省范围内。

    Q2.对应的数据源网站

    1:网站数据源,政府网站公告,拍卖行网站公告。

    2:如果需要爬到外国网站则需要用VPN。

    Q3.爬取数据的URL(每个拍卖行的公告信息,先熟悉两个网站)

    1:http://www.zwauction.com/gonggao.php

    2:http://www.hhpm.cn/

    Q4.数据筛选规则

    1:筛选的数据需要每天拿最新的数据。

    2:倘若公告有截至日期的关键字,那么一定要特别标识。

    3:如果筛选的数据里面有提到资质字眼,也需要特别标识。

    4:数据按照截至报名日期排序,快到期的排在最前面。

    相关文章

      网友评论

        本文标题:爬虫入门01作业 phsyke

        本文链接:https://www.haomeiwen.com/subject/subacxtx.html