想要分析的时候,没有数据,就是巧妇难为无米之炊。以前想找一个数据需要费尽心思再往上去搜,最终还找不到自己想要的数据。通过编程爬虫数据学习成本太高,又不是想要成为爬虫工程师,只是想要拿到数据来分析。那有没有傻瓜式的获取数据方法呢?
下面介绍4种获取数据的方法,选择一种适合你自己的方法就可以。
方法一:从数据竞赛平台获取
国内中文平台:
1)阿里云天池
数据下载办法:



2)DF数据集
有的文件下载后会显示后缀是.zip, .zip是个压缩包,下载后需要减压后才能看到压缩包里的excel文件

3)科赛
国外英文平台:如何在Kaggle上查找数据
方法二:直接获取10大行业免费数据

1)如何选择行业?
不知道如何选择行业的,可以在下面网站里看到各个行业的分析报告:
如何选择入职行业 :https://www.zhihu.com/question/24995484/answer/516813008
艾瑞研究-艾瑞网(行业报告):http://report.iresearch.cn
Talkingdata报告(行业报告):http://mi.talkingdata.com
199IT互联网数据中心(行业报告,内容多,支持搜索):http://www.199it.com
2)10大行业免费数据汇总
【优点】直接拿来使用
【缺点】数据有限,可能不是最新的数据。
根据你确定的行业,选择一个自己感兴趣的数据集。比如你确定了电商行业,然后就找一个电商的数据集。
方法三:谷歌数据搜索引擎
谷歌推出了一个帮助数据分析、数据科学领域的人查找数据的搜索引擎Dataset Search (需要科学上网后打开,地址:https://toolbox.google.com/datasetsearch
打开这个数据搜索引擎,如果我们想要搜索电商亚马逊的数据,搜出关键词「亚马逊」,就能看到亚马逊相关的数据,在搜索结果里有的数据是要收费的,有的数据是免费的。

【优点】可以直接获取想要的数据
【缺点】国内打不开;需要自己慢慢去查找免费的数据,有的是英文数据
方法四:选择下面一个傻瓜式爬虫工具(不需要编程)
在网站上爬取你感兴趣领域网站的数据
1)工具: 后羿,同时有mac,windows版本
网址:http://www.houyicaiji.com/
打开官网后点击下图“教程”的地方有入门教程。
点击“关于我们”有官网qq群,遇到问题可以在群里提问。

2)工具:集搜客,只有windows版本
操作指南只需要看下面红框中的内容就可以,遇到问题在它的官网QQ群提问就可以解决。操作指南地址:
https://www.gooseeker.com/tuto/tutorial.html

爬取多少数据?
数据量少一般说明不了什么问题,起码的超过几万条数据。
多尝试、思维逻辑要清晰,一定要知道自己做什么,爬取什么样的数据,提前规划好了,整个过程就不会走太多的弯路。

案例:https://zhuanlan.zhihu.com/p/39733403
【优点】可以获取到自己想要的领域数据
【缺点】需要看官网教程来学习,学习过程中遇到问题咨询官网QQ群可以解决
欢迎留言补充更多行业数据。
上面提到3种获取数据的方法,选择一种适合你自己方法。获取数据后分析,可以使用这个里面的方法来研究:如何分析数据?
网友评论