爬取某度百科的历史上的今天-初探
背景:
本来是想放在公众号中,将历史上的今天的数据抓取下来,当作每日推送。
初期设想:
获取wiki的数据;
自动推送图文消息。
但是在实现的过程中遇到了几个问题:
Wiki数据难获取;
Wiki访问受限;
调用自动推送图文消息的接口,需要订阅号认证。
这些问题,解决起来需要时间和精力,于是我将方向调转,找到了某度百科,发现有类似的功能,虽然数据少的可怜,并且各种被河蟹,但是至少能用。
地址在此:https://baike.baidu.com/calendar
过程:
选择好了方向,剩下的就是想办法获取数据,作为一名有追求的软件测试工程师,每天手动打开网页复制粘贴是不可能的,这辈子都不可能的。
默默的打开了调试工具,发现了某度百科的请求地址:
(这么明显的暴露出来,真的是干得漂亮!)
https://baike.baidu.com/cms/home/eventsOnHistory/01.json?_=1546921274875
我们分析下这个URL地址,“01.json”中数字代表着月份,“_=1546921274875”这一串看着像是时间戳,可以忽略。
总结来说,我们只需要使用get方法,按照不同的月份请求
https://baike.baidu.com/cms/home/eventsOnHistory/月份.json
就能获取到需要的数据,加上循环,可以一次性获取一整年的数据。
再看下返回的json数据:
已经按照不同日期划分好了格式,不要客气,用它。
总结:
虽然数据少的可怜,但是简单,容易上手;
一次获取一整年,性价比可以;
还是喜欢wiki的数据,有空再研究下怎么获取吧,下次更新。
![](https://img.haomeiwen.com/i1927013/fa0a4c876213797d.png)
网友评论