网络分析,图挖掘方向的同学相信都曾因为没有数据苦恼。真实的数据往往需要爬取网页,但往往会遇到被封ip的危险。项目组要爬取开心网的数据,号召我们每人申请20个账号,估计还是不够用。
下面是自己找过的一些数据,对于社会计算,图挖掘方向会有帮助。
1.snap.stanford.edu/na09/resources.html 这个网站给出了非常多的 有用的数据集包括:dblp data, kdd data,imdb database ,邮件网络,博客网络,等等。此外还给出了一些实用的工具进行网络分析,数据呈现等。
2。citeseerx.ist.psu.edu/about/metadata 此地址给出了citeseer 数据的下载方式,citeseer数据包括合作者,引文等信息。关于citeseer的下载办法,参见本博客的另一篇文章citeseer data的下载方法。
3。Cora dataset 的下载地址www.cs.umass.edu/~mccallum/code-data.html 关于更详细的数据介绍请看hi.baidu.com/zhudaohui/blog/item/4e6f86fdc4df791e08244d12.html
4。dblp 数据下载地址dblp.uni-trier.de/xml/ dblp 数据量较大,数据包括 合作者,日期,但是一般不包引文信息.
参考资料
[1] 真实网络数据集(带编号的)真实划分图,karate、Dolphin、football
[2] (Social and Information) Network Analysis Autumn 2009
[3] 网络分析,图挖掘常用数据集:dblp dataset,kdd dataset....
[4] 数据集 | 图网络一般适用的数据集整理
[5] 【数据】ZACHARY空手道俱乐部成员关系网络数据集
网友评论