美文网首页
爬虫入门01-作业

爬虫入门01-作业

作者: 明说危险 | 来源:发表于2017-07-04 03:44 被阅读26次

    最早看过一本跟大数据相关的书籍是《大数据时代》,后面还断断续续看过涂子沛老师写的有关大数据的系列文章,工作的原因最近涉及到数据处理,看到tiger的解密大数据社群就立马加进来了。以下是学完爬虫入门后的作业练习。

    Q1要爬取的数据类型

    为了了解交通运输行业(汽车,轮船,飞机,火车)的安全水平,需要监测最近的事故/事件信息,对这些信息加以分析,总结经验提高交通运输行业的安全水平。

    监测的数据类型包括,

    每天交通运输行业更新的信息,从网站上获得,

    数据的类型有时间(年,月,日,具体时间点),交通工具名称,地点,死伤人数,事故原因,

    目前限制的范围为近十年的数据。

    Q2对应的数据源网站

    为了调查这一块的数据,需要涉及到的网站包括国家政府的统计网站,一些行业的信息网站。都是国内的,不涉及到国外的网站。

    Q3爬取数据的url

    安全信息网

    安全生产信息网

    先以上面两个为例。

    Q4数据筛选规则(选作)

    待定,还没搞懂,后续实践中再补充完善。

    相关文章

      网友评论

          本文标题:爬虫入门01-作业

          本文链接:https://www.haomeiwen.com/subject/imlthxtx.html