发掘阿姆斯特丹学术圈的秘密 ——使用python及R的twitt

作者: IanZhang | 来源:发表于2017-02-15 17:41 被阅读0次

## 发掘阿姆斯特丹学术圈的秘密——使用Python的twitter API工具进行社交网络分析

由于本人学习数据科学课程的缘故。在上周，我们的荷兰老师Wouter布置了一个使用R的twitteR包，来挖掘twitter用户的信息.由于twitter使用OAuth2.0授权，因此在挖掘twitter之前，必须要申请一个twitter的application。

twitter application在以下页面申请。有关于OAuth2.0授权的原理，在阮一峰的博客和以下网站都能找到，如果要挖掘微博，Facebook，都是基于OAuth2.0的机制。以下不再阐述

>* Twitter application页面 https://apps.twitter.com/

>* 阮一峰的博客：http://www.ruanyifeng.com/blog/2014/05/oauth_2_0.html

Wouter老师的所使用的R包，很多是没有翻译，理解起来有一定的困难。由于在R语言的机制里，使用for这种循环语句被视作效率低下。在批量处理数据是，要用到R自带的apply族函数以及plyr包中的九个函数，虽然效率变高，然而每一句的可读性就降低了，而且不容易被理解。（其实还是本人不太熟悉R语言编程）

针对这种情况，本人尝试了python中的tweepy包来进行API访问的操作，networkx包画图。在写程式的过程中，深刻理解到python代码的易读好写，不过使用纯python程式中，使用了大量的循环结构，因而执行速度会变慢，这是使用python的一大缺点。

荷兰老师的作业问题大概是：以他个人为中心，寻找和他互粉的十个朋友，再在他互粉的十个朋友的朋友之中，找到和他本人也是朋友的用户。这种被他称为snowballing.

个人Python实现代码的程式如下，由于就是自己写着好玩，没有做代码上的结构化，或许哪天心情好再优化代码吧。

```python

import tweepy

auth = tweepy.OAuthHandler('PcYGyfk0Xrsr7RQmgFefFKqcl', 'VdVUtOGBDajhDBULlHm3KCwXnlmxdldGowG9CjCOP3yhDveoEU')

auth.set_access_token('2657160098-4lSShP8CgcOIka2sPBk6iS28Iycl9X6deHc2GP7', '***') #个人的token保密

api = tweepy.API(auth) #实例化api

list_followers = []

for item in tweepy.Cursor(api.followers,id = "vanatteveldt").items(150):

list_followers.append(item.id)

his_follows = api.friends_ids("vanatteveldt")

#这货的所有followers

his_id = api.get_user("vanatteveldt").id

#这货的ID

his_friends = list(set(his_follows) & set(list_followers))

#这货互粉的人

dict_a = {his_id : his_friends[0:10]}

#这货的前十个朋友，twitter API有爬虫限制，爬的太频繁会报错

#建一个字典，字典的key是他的id,字典的values是他朋友的list

his_friends_s = his_friends[0:10]

list_f = []

friends_id = []

for item in his_friends_s:

friends_id = api.friends_ids(item)

list_f.extend(friends_id)

list_b = list(set(his_friends) & set(list_f))

#list_b是这货朋友的朋友，和他也是朋友的人

dict_c = {}

dict_c = {his_id : list_b}

dictMerged=dict_a.copy()

dictMerged.update(dict_c)

#把list_b扩展到上个字典里面

dict_f = {}

dict_d = {}

for item in his_friends_s[0:10]:

friends_id = api.friends_ids(item)

friends_id_list = list(set(friends_id) & set(his_friends))

dict_d = {item:friends_id_list}

dict_e = dict_d.copy()

dict_f.update(dict_d)

#挖掘他朋友的朋友，和他的朋友的对应关系

#将这个对应关系做个大的字典

dictMerged_2 = dictMerged.copy()

dictMerged_2.update(dict_f)

#合并所有字典，字典的keys是他和他的朋友，values是他和他朋友圈里所有的人。

list_total = []

for key,value in dictMerged_2.items():

for i in value:

list_total.append((str(key),str(i)))

#清理数据，把数据变成networkx能够接受的格式

import networkx as nx

import matplotlib.pyplot as plt

G = nx.Graph()

G.add_edges_from(list_total)

nx.draw_spring(G,node_size = 20)

plt.show()

#画图，这一步很偷懒，图上的很多信息，包括标签，Betweenness centrality，以及clustering coefficient,都可以表达出来。

```

最后的图长这个样子。

![](http://p1.bqimg.com/567571/bd643fc83e713723.png)

标签就不打了，事关别人的隐私。

可以看到，这是一个Ego Networks,由老师出发，然后看到了他的朋友圈的一部分。

这个荷兰老师的朋友。都是分群的，裸眼看至少分为三块，而他其中有些重要的朋友，充当群和群之间的连接。据他说，有一部分是他荷兰的同事，有一部分是他的国际同事。其中有几个人也是国内国外通吃的学者。

Betweenness centrality最大的当然是他，还有他的一些充当群与群之间连接朋友也很大。做这个的主要目的，还是想写一个tweepy包的example代码，因为tweepy这个包，似乎也没有国人翻译。

R语言的怎么写？有需求的私信我吧，这个老师没有标CC-BY-3.0在他的工程上。。。不敢乱来啊。

>* tweepy的文档：http://tweepy.readthedocs.io/en/v3.5.0/

>* 这个文件，格式是ipynb的，用jupyter notebook写的，https://github.com/IanHongruZhang/Python-For-Data-COM5508/blob/master/tweepy%2B-3.ipynb

网友评论

本文标题：发掘阿姆斯特丹学术圈的秘密 ——使用python及R的twitt

本文链接：https://www.haomeiwen.com/subject/isvqwttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

发掘阿姆斯特丹学术圈的秘密 ——使用python及R的twitt

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读