美文网首页
数据分析师之路(五)--爬虫

数据分析师之路(五)--爬虫

作者: 诗与星空 | 来源:发表于2017-07-27 22:14 被阅读195次

    爬虫是大数据时代最有趣的工具,作为新手,股市数据的爬取是非常有意思的。

    许多证券网站都会有上市公司业绩预报的页面,最近市场对这个概念比较活跃。如何快速的捕获这些数据并分析呢?

    有人说,直接在网页上浏览不就行了么?

    当然可以,但是你想综合对比分析,在证券网站上就没那么容易了。

    还有人说,明明可以用wind插件嘛。嗯,wind确实不错呀,不过不卖给个人,只卖给机构,还6万块一年起步。

    我可能只需要学一个礼拜的代码就可以实现我的想法,甚至可能是一小时。

    Python的爬虫工具非常多,不做赘述。

    以新浪证券为例---为神马非要用新浪证券呢?因为新浪证券的翻页不像东方财富网,并没有用JavaScript,对我来说比较好处理... ...

    原理比较简单,新浪证券的业绩预增页面在这里:http://vip.stock.finance.sina.com.cn/q/go.php/vFinanceAnalyze/kind/performance/index.phtml?num=60&p=

    p和等号后面跟着是页数,目前是43页,因此可以直接在代码里写死。

    原网页一共9列,其实我想要的只有7列。

    爬完以后是这样子:

    很多公司的预报增幅是带区间的,在excel里不方便排序,就用截取函数截取最小增幅---为什么要截最小而不是最大呢?因为我干过会计.....谨慎性原则。

    取完后发现大约有2560(7月27日)只股票发布了业绩预报,相对于全场3200多只股票来说,这个比例不算低了。其中预升或者预增(二者有什么区别么?WTF?)的有1679家,这么看A股的整体预期还是不错的嘛。

    然后筛选一下今天发布的预增的:

    对照公告日期,配合增幅比例,好像发现了什么不得了的事。

    市场的逻辑就是这么简单粗暴。

    由于我之前做好了全场3200多只股票连续三年的净利润情况,并进行了概念、行业的分类,那么就可以vlookup一下:

    结合净利润情况,就可以更好的分析参考了。

    相关文章

      网友评论

          本文标题:数据分析师之路(五)--爬虫

          本文链接:https://www.haomeiwen.com/subject/wxutlxtx.html