爬虫入门01作业 phsyke:
一直以来对爬虫挺感兴趣的,最近因为工作上的一些原因,需要的数据采集会比较多,需要更高效的收集有用的数据。
Q1.需要爬取的数据类别
拍卖行交易网站所更新的拍卖信息是不定时的,所以在设计爬取数据类别的时候首先确定的是:
1:每日更新的数据,因为是工作日更新数据,所以在上班之前更新一份便可以。
2:更新的数据分类,比如房产拍卖,设备物资拍卖。
3:限制的范围 广东省范围内。
Q2.对应的数据源网站
1:网站数据源,政府网站公告,拍卖行网站公告。
2:如果需要爬到外国网站则需要用VPN。
Q3.爬取数据的URL(每个拍卖行的公告信息,先熟悉两个网站)
1:http://www.zwauction.com/gonggao.php
2:http://www.hhpm.cn/
Q4.数据筛选规则
1:筛选的数据需要每天拿最新的数据。
2:倘若公告有截至日期的关键字,那么一定要特别标识。
3:如果筛选的数据里面有提到资质字眼,也需要特别标识。
4:数据按照截至报名日期排序,快到期的排在最前面。
网友评论