作者:xlzd
链接:https://zhuanlan.zhihu.com/p/20546546
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
最近这段时间事情比较多,很久没有更新博客了,今天这将是爬虫入门的最后一篇,新年之后,我将会更新一系列Python炫技然并卵的博客。今天,我将要通过代码找出知乎上任意两个人之间的最短关系(六度分隔理论的实践~)。
首先考虑这个问题的解决方案以及与爬虫的关系吧。一个比较可行的方案是,抓取知乎所有人的关注列表及被关注列表,然后通过一个有向图连接起来,找两个人的最短关联关系,实际上就是就图中两个节点的最短路径。考虑到我希望得到的是仰望型的关系图,即从一个较有名气的人的关注列表出发,能否在他的关注链上游找到自己(举例:我关注轮子哥很正常,但是轮子哥没有关注我,不过他的关注链上有我,我希望借此找到这个链上的所有人)。所以,这个问题还可以得到进一步的简化:只是抓取每个人的关注列表而忽略粉丝列表,存储下这个人(Node)及与关注列表每个人的对应关系(Relationship)。
那么,对应的实现应该如何解决呢?首先要知道知乎的用户很大,即使刚才的方案干掉了所以没有任何人关注的用户,但是有至少一个人关注的用户依旧很多,所以不建议自己维护这样一个很大的图,Graph Database是一个不错的选择,这篇博客中,我将使用neo4j来存储节点及其关系。而对应的用户及抓取列表,将使用Mongo存储。
既然找到了解决方案,那么上手开始吧。关于neo4j的安装及基本使用,以及cypher(neo4j使用的操作语法)的入门介绍,这里将一笔略过,如果你没有neo4j的使用经验,请读者自行去neo4j的官网阅读学习。
现在,我们将任务进一步细化:
1. 从知乎的某个用户x开始,得到他的关注列表
2. 将x与其关注列表中的每个人each建立关系: x-FOLLOWING(关系)->each
3. 将关注列表还没有抓取关注列表的用户放入Mongo中
4. 如果Mongo中还有未抓取关注列表的人,重复1
然后,对于需要查询某两个人之间的最短路径,只需要在neo4j的web终端里使用对应的cypher语句即可。当然,后续我将会实现一个网页形式的界面以供使用(py2neo+d3.js)。
分析部分至此结束,这里并不打算一步一步写出代码,不过会在最后提供源码链接以供参考。具体的代码部分,需要自己完成的是,分析知乎获取关注列表的API及其参数,然后按照上面分析的步骤一步一步编写代码即可。值得注意的是,知乎上每个人的昵称、个性域名都是可变的,所以不可作为区分不同用户的唯一索引,知乎对应每个人都有一个user_hash字段,这才是标识每个人的真正ID。
最后,在这里贴两张图片吧,分别对应着轮子哥的关注链上我的位置和四万姐的关注列表上我的位置:
由图容易看出,轮子哥与我只间隔了一个人,而四万姐与我之间间隔了最少两个人。
小节
这篇博客我们接触了一种新的数据库——Graph Database,这里使用的是neo4j作为实际使用,不过希望你可以举一反三。希望你可以在自己独立完成,在遇到问题自己独立解决或者尽可能独立搞定,然后再参考后面的源码。下载源码请点击这里。
总结
关于爬虫入门部分的博客就写到这里了,但是写爬虫到这一步,你仅仅可以抓取那些不怎么防你、页面不算复杂的网站,后面还有很多需要自己自学的知识。博客中贴代码的部分由多变少,而整理思路,思考如何做的部分的比重在逐步增加,因为我觉得思路更加重要,清晰的思路可以帮助你在遇到一个崭新的问题时有足够的想法去解决它。希望你可以从中得到一些帮助,也希望你在后续过程中持之以恒,不断前进。
网友评论