最早看过一本跟大数据相关的书籍是《大数据时代》,后面还断断续续看过涂子沛老师写的有关大数据的系列文章,工作的原因最近涉及到数据处理,看到tiger的解密大数据社群就立马加进来了。以下是学完爬虫入门后的作业练习。
Q1要爬取的数据类型
为了了解交通运输行业(汽车,轮船,飞机,火车)的安全水平,需要监测最近的事故/事件信息,对这些信息加以分析,总结经验提高交通运输行业的安全水平。
监测的数据类型包括,
每天交通运输行业更新的信息,从网站上获得,
数据的类型有时间(年,月,日,具体时间点),交通工具名称,地点,死伤人数,事故原因,
目前限制的范围为近十年的数据。
Q2对应的数据源网站
为了调查这一块的数据,需要涉及到的网站包括国家政府的统计网站,一些行业的信息网站。都是国内的,不涉及到国外的网站。
Q3爬取数据的url
先以上面两个为例。
Q4数据筛选规则(选作)
待定,还没搞懂,后续实践中再补充完善。
网友评论