美文网首页解密大数据
爬虫入门01作业

爬虫入门01作业

作者: mudu86 | 来源:发表于2017-07-03 12:25 被阅读160次

课堂作业

  • 要爬取的数据类别

  • 对应的数据源网站

  • 爬取数据的URL

  • 数据筛选规则(选做)

要爬取的数据类型

我对金融行业中股票的信息感兴趣,想要依次作为决策的依据,因此想要爬取股票信息,主要获取的股票信息有:季报、半年包、年报、公司重大公告、国家宏观金融政策、股价、成交量、龙虎榜数据、实时热点。

对应的数据源网站

  1. 三大证券报:
  2. 两大官方网站:
  3. 最大信息发布网站:
  4. 财经新闻网站:
  5. 股票论坛:

爬取数据的URL

  1. 三大证券报:
  2. 两大官方网站:
  3. 最大信息发布网站:
  4. 财经新闻网站:
  5. 股票论坛:

数据筛选规则

股票消息分为:实时性和非实时性的消息,因此要分2种方式设定规则。

  • 实时性消息: 每20分钟刷新一次网站采集的数据,如果采集的数据中有自己设置的关键词(例如:突发重大新闻,自己关心的股票,涨幅超过5%),提取相应的信息。

  • 非实时性消息:每年发布季报、半年报、年报的日期,爬取上海证券交易所、深圳证券交易所、巨潮咨询网中每个公司发布的年报摘要,如果有自己设置的关键词(营业额年增长率超过50%、营业利润率超过20%),提取对应的公司信息。每日爬取雪球网中行情排行榜、热度排行榜、讨论排行榜中上榜的股票,并通过每周上榜股票的次数。

相关文章

  • 爬虫入门01作业

    自己一直对爬虫挺感兴趣,但对其理解不过是可以更高效率的搜集信息。听完第一课,知道爬虫可以从获取信息,再到整理成一份...

  • 爬虫入门01作业

    课堂作业 要爬取的数据类别 对应的数据源网站 爬取数据的URL 数据筛选规则(选做) 要爬取的数据类型 我对金融行...

  • 爬虫入门01作业 phsyke

    爬虫入门01作业 phsyke: 一直以来对爬虫挺感兴趣的,最近因为工作上的一些原因,需要的数据采集会比较多,需要...

  • 爬虫入门01-作业

    最早看过一本跟大数据相关的书籍是《大数据时代》,后面还断断续续看过涂子沛老师写的有关大数据的系列文章,工作的原因最...

  • 课程作业-爬虫入门02-网页基础与结构分析-WilliamZen

    课堂作业 选择简书解密大数据专题里面爬虫入门01提交的作业文档地址作为分析页面 分析并提交该页面的网页结构分析与元...

  • 3分钟带你了解世界第一语言Python 入门上手也这么简单!

    一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...

  • 爬虫入门系列(六):正则表达式完全指南(下)

    爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议 爬虫入门系列(二):优雅的HTTP库requests...

  • Python爬虫入门

    注:采转归档,自己学习查询使用 Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Pytho...

  • 爬虫入门03作业

    这次作业总的而言就是一个理解代码,修改代码的过程。老师给出的代码中,第一个函数download()是用来下载界面的...

  • 爬虫入门02作业

    网页结构分析 上面两个界面分别是评论栏,以及相关文章栏。再做进一步的拆分 顶部导航栏分为: 网页logo 导航栏 ...

网友评论

    本文标题:爬虫入门01作业

    本文链接:https://www.haomeiwen.com/subject/bfyacxtx.html