美文网首页
从百度百科中获取名人数据

从百度百科中获取名人数据

作者: K同学啊 | 来源:发表于2019-02-16 12:57 被阅读3次

这一部分也是在项目完成后很久补上的博客,我只关键的几点做一下说明。

其实这一部分做起来也是挺简单的,找到百度百科的接口,通过这个接口来获取json数据,当然返回的json数据一定有我们不需要的数据,除去就好了。其中也不乏一些脏数据,回想起来当时用的方法还是比较暴力,直接用replace()、strip()之类的函数直接进行的处理,这样处理起来还是比较费时的,需要一个个的找到脏数据的类型,而且当时我也没有对数据进行一个预处理,这是我当时明显的不足吧。

在这部分,我遇到的第二个问题就是数据量比较大吧(做这个项目时还是菜鸟),18万条人名数据需要我一一进行抓取介绍,容易就服务器造成压力,爬虫被封也是正常的。当时是使用time.sleep()来进行休眠外加fake_useragent第三方库的运用。代理IP那会还用得不是很顺手。

相关文章

网友评论

      本文标题:从百度百科中获取名人数据

      本文链接:https://www.haomeiwen.com/subject/kwpbeqtx.html