美文网首页Python新世界python热爱者
python写爬虫为何都说简单?我能一文让你学会自己写爬虫!

python写爬虫为何都说简单?我能一文让你学会自己写爬虫!

作者: 48e0a32026ae | 来源:发表于2018-10-19 16:24 被阅读4次

爬虫,Web Spider,其实就像个在蜘蛛网上爬来爬去的蜘蛛。

这只蜘蛛无比聪明,所到之处的方位气味都被印在了它的脑中。

有一天我向这只在互联网上努力爬着的小蜘蛛提了个需求:

去巨潮网上,把工商银行这只股票最近一个月的公告信息发给我,并在我的本地电脑上存储最新的一份公告。

于是,这只蜘蛛就去做了这样几件事情:

1.找到巨潮网上工行这只上市公司的公告存储地址;

2.将我的筛选条件——上市公代码、页码、时间区间等输入输入输入,然后向网络发送请求;

3.将第一份公告复制粘贴到我本地电脑的特定路径中。

这只智能蜘蛛的逻辑和人类简直一模一样。

利用网红编程语言Python实现上述流程(爬虫),逻辑也如此简单清晰。

Step1:找地址

如果客官们认为这里的地址就单纯指网页最顶端的那个一般以www.开头的地址,就图样图森破了。

因为这个网址实际上包含了很多东西,比如页面角落的某个logo,甚至页面并没有展示出来的一些底层数据信息,而我们则需要屏蔽这些无用信息,稳准狠的找到我们要的那个。

●●●

在你需要爬取的页面右键选择“检查”(或“审查元素”)

选择“NetWork”

刷新页面

点击“XHR”

点击query(增加“时间不限”这一筛选条件,否则只展示最近一年的公告链接)

点击Headers,地址就在眼前了。

(PS:此步骤中的点击“XHR”、“query”仅适用于爬取公告)

以下是详细无比的图解

不过,此时你还需要注意请求方式。请求方式分为get和post两种,而用Python发送请求时,这点需要注明。

Step2:将筛选条件输入输入输入

筛选条件一般很简单,包括股票代码、页面等等。而用Python写入的语法,也简单粗暴:

Data={key1: value1, key2: value2}

综合Step1、Step2,我们汇总出三行代码,这只“蜘蛛”就完成了上述发送指令操作。

Step3:下载+存储

下载公告的姿势很简单,直接result即可。由于这个公告(result)是json格式,聪明的Python直接用.json()就可成功解析。

千言万语汇成Python一句话:

而下载公告前,我们需要指定公告下载后存储在电脑上的位置。

此处,将公告存在桌面上的“zaijiuye(再就业)”文件夹中,公告命名格式为“公司代码_公告名称_公告在巨潮中ID”。

两行代码就能搞定。

上述代码的具体结果就是:

最后一步,就是存储啦。我们先回忆一下手动从网上copy文件的步骤:

打开存储路径下提前建好的空白文件,将网上复制的文件粘贴进去,Over。

同样对于Python来说,也就是这个思路:

很成功的,我们最后得到了它:

●●●

以上,就是用Python爬取巨潮网上某股票公告信息的全部内容,对此客官们还需要了解:

1.此代码在巨潮网上爬取信息具有可操作性、可复制性

2.代码虽只有聊聊几行,但背后隐藏了对网页信息的深入了解、对Python语言的熟练运用;

3.所有网站皆可爬,框架如上,但具体实践有差别。

相关文章

网友评论

    本文标题:python写爬虫为何都说简单?我能一文让你学会自己写爬虫!

    本文链接:https://www.haomeiwen.com/subject/bofuzftx.html