最开始学数据分析的时候往往会为数据来源发愁,一般人工作学习中很难接触到那么大的数据量(除了每天要做报表的人),要获取数据最常用的应该是爬虫了吧,但是对于编程基础比较薄弱的人来说,太费时费力。
那我们来看看,除了自己用爬虫从网上爬数据之外,还有什么好方法呢?
今天先给大家介绍一下几个 数据网站
数据网站首推 Data.gov
这个网站数据种类非常多,不过现在这个网站已经失去了政府拨款,不知道还能支撑到什么时候。
Paste_Image.png除了一些官方数据,民间数据也挺多的,最大的优点是可以直接下载到原始数据
比如说我随便搜个 “Twitter”,搜到了这么一个东西:
Paste_Image.png是纽约社交媒体的使用量,下面有下载链接:
Paste_Image.png有这么几种格式,我们挑最简单csv文件下下来看看:
Paste_Image.png总共有5900条访问记录。
拿来练手应该是够了。
类似的网站还有nyc.gov
国家数据
这个是我们国家统计局的网站,全都是官方数据,而且不是原始数据,给你看到的都已经经过一定的处理。
Paste_Image.png虽然数据不多,但是因为比较贴近我们自己的生活,还是值得一看的。
这两个是比较有代表性的网站了, 如果还不能满足你,我再给你推荐一个神奇的网站:
SimilarSiteSearch
用这个网站,可以帮你找到跟Data.gov类似的网站:
Paste_Image.png我们点开第一个看看:
不过,点进去之后我发现,这个网站竟然是美国劳工统计局的网站,跟咱们国家的国家数据有点像:
Paste_Image.png我在这里发现了中国对美国的进口价格波动报表:
Paste_Image.png可以从这里学一学怎么做数据可视化吧……也算是意外的收获。
好了,这个网站剩下的功能大家自己去探索一下吧。
PS. Data.gov有时候会打不开。
国内这种数据网站还是比较少的,如果还有疑问,建议上Quora 上提问,这个网站友好度还是挺高的。
网友评论