美文网首页
发掘阿姆斯特丹学术圈的秘密——使用Python的twitter

发掘阿姆斯特丹学术圈的秘密——使用Python的twitter

作者: IanZhang | 来源:发表于2017-02-15 17:40 被阅读0次

    由于本人学习数据科学课程的缘故。在上周,我们的荷兰老师Wouter布置了一个使用R的twitteR包,来挖掘twitter用户的信息.由于twitter使用OAuth2.0授权,因此在挖掘twitter之前,必须要申请一个twitter的application。

    twitter application在以下页面申请。有关于OAuth2.0授权的原理,在阮一峰的博客和以下网站都能找到,如果要挖掘微博,Facebook,都是基于OAuth2.0的机制。以下不再阐述

    >* Twitter application页面 https://apps.twitter.com/

    >* 阮一峰的博客:http://www.ruanyifeng.com/blog/2014/05/oauth_2_0.html

    Wouter老师的所使用的R包,很多是没有翻译,理解起来有一定的困难。由于在R语言的机制里,使用for这种循环语句被视作效率低下。在批量处理数据是,要用到R自带的apply族函数以及plyr包中的九个函数,虽然效率变高,然而每一句的可读性就降低了,而且不容易被理解。(其实还是本人不太熟悉R语言编程)

    针对这种情况,本人尝试了python中的tweepy包来进行API访问的操作,networkx包画图。在写程式的过程中,深刻理解到python代码的易读好写,不过使用纯python程式中,使用了大量的循环结构,因而执行速度会变慢,这是使用python的一大缺点。

    荷兰老师的作业问题大概是:以他个人为中心,寻找和他互粉的十个朋友,再在他互粉的十个朋友的朋友之中,找到和他本人也是朋友的用户。这种被他称为snowballing.

    个人Python实现代码的程式如下,由于就是自己写着好玩,没有做代码上的结构化,或许哪天心情好再优化代码吧。

    ```python

    import tweepy

    auth = tweepy.OAuthHandler('PcYGyfk0Xrsr7RQmgFefFKqcl', 'VdVUtOGBDajhDBULlHm3KCwXnlmxdldGowG9CjCOP3yhDveoEU')

    auth.set_access_token('2657160098-4lSShP8CgcOIka2sPBk6iS28Iycl9X6deHc2GP7', '***') #个人的token保密

    api = tweepy.API(auth) #实例化api

    list_followers = []

    for item in tweepy.Cursor(api.followers,id = "vanatteveldt").items(150):

    list_followers.append(item.id)

    his_follows = api.friends_ids("vanatteveldt")

    #这货的所有followers

    his_id = api.get_user("vanatteveldt").id

    #这货的ID

    his_friends = list(set(his_follows) & set(list_followers))

    #这货互粉的人

    dict_a = {his_id : his_friends[0:10]}

    #这货的前十个朋友,twitter API有爬虫限制,爬的太频繁会报错

    #建一个字典,字典的key是他的id,字典的values是他朋友的list

    his_friends_s = his_friends[0:10]

    list_f = []

    friends_id = []

    for item in his_friends_s:

    friends_id = api.friends_ids(item)

    list_f.extend(friends_id)

    list_b = list(set(his_friends) & set(list_f))

    #list_b是这货朋友的朋友,和他也是朋友的人

    dict_c = {}

    dict_c = {his_id : list_b}

    dictMerged=dict_a.copy()

    dictMerged.update(dict_c)

    #把list_b扩展到上个字典里面

    dict_f = {}

    dict_d = {}

    for item in his_friends_s[0:10]:

    friends_id = api.friends_ids(item)

    friends_id_list = list(set(friends_id) & set(his_friends))

    dict_d = {item:friends_id_list}

    dict_e = dict_d.copy()

    dict_f.update(dict_d)

    #挖掘他朋友的朋友,和他的朋友的对应关系

    #将这个对应关系做个大的字典

    dictMerged_2 = dictMerged.copy()

    dictMerged_2.update(dict_f)

    #合并所有字典,字典的keys是他和他的朋友,values是他和他朋友圈里所有的人。

    list_total = []

    for key,value in dictMerged_2.items():

    for i in value:

    list_total.append((str(key),str(i)))

    #清理数据,把数据变成networkx能够接受的格式

    import networkx as nx

    import matplotlib.pyplot as plt

    G = nx.Graph()

    G.add_edges_from(list_total)

    nx.draw_spring(G,node_size = 20)

    plt.show()

    #画图,这一步很偷懒,图上的很多信息,包括标签,Betweenness centrality,以及clustering coefficient,都可以表达出来。

    ```

    最后的图长这个样子。

    ![](http://p1.bqimg.com/567571/bd643fc83e713723.png)

    标签就不打了,事关别人的隐私。

    可以看到,这是一个Ego Networks,由老师出发,然后看到了他的朋友圈的一部分。

    这个荷兰老师的朋友。都是分群的,裸眼看至少分为三块,而他其中有些重要的朋友,充当群和群之间的连接。据他说,有一部分是他荷兰的同事,有一部分是他的国际同事。其中有几个人也是国内国外通吃的学者。

    Betweenness centrality最大的当然是他,还有他的一些充当群与群之间连接朋友也很大。做这个的主要目的,还是想写一个tweepy包的example代码,因为tweepy这个包,似乎也没有国人翻译。

    R语言的怎么写?有需求的私信我吧,这个老师没有标CC-BY-3.0在他的工程上。。。不敢乱来啊。

    >* tweepy的文档:http://tweepy.readthedocs.io/en/v3.5.0/

    >* 这个文件,格式是ipynb的,用jupyter notebook写的,https://github.com/IanHongruZhang/Python-For-Data-COM5508/blob/master/tweepy%2B-3.ipynb

    相关文章

      网友评论

          本文标题:发掘阿姆斯特丹学术圈的秘密——使用Python的twitter

          本文链接:https://www.haomeiwen.com/subject/rywqwttx.html