美文网首页
利用知乎的客户端Api写个知乎爬虫

利用知乎的客户端Api写个知乎爬虫

作者: Jerry2015 | 来源:发表于2017-03-18 13:28 被阅读294次

一个网站什么最重要?通常应该就是数据库了。那如何拿到这玩意?爬虫。爬虫是什么?简单说就是把目标网站的网页爬取并解析自己需要的数据保存到本地。比如你希望获取某个网站用户的分布,想要对某个网站的一些数据做分析的时候怎么办?最直接粗暴的就是直接拿到目标网站的数据库,然后想怎么分析就怎么分析,~哈哈~,当然这样就必须非法入侵了。那有没有明目张胆的办法?因为目标网站本来就是开放给用户浏览的,开放的网页就可以理解为目标数据库的另外一种呈现方式。所以如果把目标网站的所有网页全部访问一遍,拿到的数据其实跟直接访问目标数据库已经相差无几了。

传统的大家都会去爬目标网站的http(s)返回的html。网上介绍知乎爬虫的文章非常多,这主要是介绍一个不一样的思路。爬虫不一定非得是爬http,从客户端拿到api从api爬岂不是更高效、简单?

无意中发现知乎的Android客户端是可以不需要登录就能用的。如果不发言的话,不登录和登录没太大区别。先对客户端做下抓包。


抓包

api返回是常用的json,这个结构可要比去爬网页轻松多了,这真是爬到的都是瘦肉,没一点肥肉。
实际所有数据都是可以拿到的,这里只是解析了部分数据。


抓到的数据

相关文章

  • 利用知乎的客户端Api写个知乎爬虫

    一个网站什么最重要?通常应该就是数据库了。那如何拿到这玩意?爬虫。爬虫是什么?简单说就是把目标网站的网页爬取并解析...

  • 奇怪的bug:解决 vue-cli中 proxyTable 配置

    问题起源于最近打算用vue写个单页应用-知乎日报,因为知乎日报的api比较成熟,而且自己也是知乎日报的重度使用者。...

  • 知乎爬虫

    import reimport osimport jsonimport timeimport execjsimpo...

  • Python爬取知乎与我所理解的爬虫与反爬虫

    知乎已经成为了爬虫的训练场,本文利用Python中的requests库,模拟登陆知乎,获取cookie,保存到本地...

  • 写个知乎回答照片爬虫吧

    爬的话当然得爬好看的咯~

  • 知乎?知乎!

    跌入坑里的人, 都是想闯出一番名堂的人, 是冲劲也好, 抑或是错误的折腾, 都是欲望的天性, 无论怎样, 皆是剑走...

  • 知乎,知乎?

    知乎当然是个非常好的平台,否则我也不会选择去那里写东西了。可是我发现很多朋友希望能在那里找到人生的答案,得到生活的...

  • Java 知乎爬虫

    目标 爬取知乎用户信息,并作简要分析。所爬的对象是关注者≥10的用户,因为: 关注者数量<10的用户,很多的僵尸用...

  • 爬虫 知乎回答

  • python 知乎爬虫

    依然是使用requests主要的问题是模拟登陆: 通过chrome开发者工具可以了解到,登陆的数据有这么一些,但是...

网友评论

      本文标题:利用知乎的客户端Api写个知乎爬虫

      本文链接:https://www.haomeiwen.com/subject/grzenttx.html