Google推出Dataset search
结论
Google search让信息垂手可得,Google dataset search让数据垂手可得。
从IT时代,到DT时代,真的来临。
Google dataset search解决了数据科学家、研究学者、科学家、记者等人员“数据从何而来”的问题,通过聚合互联网上的开放数据,提供数据搜索引擎,让数据垂手可得。
Screen Shot 2018-09-06 at 20.22.51.png
Screen Shot 2018-09-06 at 20.23.59.png
1. 价值
基本上为人工智能机器学习所需要的语料提供了一个聚合、检索平台。可以检索互联网上公开的数据集。提供开放数据集的检索手段,为数据科学工作者、数据新闻记者、科学家解决了数据来源问题。
2. 开源数据
Google datase searh搜索的数据集来自互联网上各中网站上公开的数据。
在Google dataset search出现之前,已经有很多开源数据网站,开源数据检索引擎如kaggle。
2.1 Kaggle
2.2 zenodo
2.3 figshare
https://figshare.com/ 科学数据开放访问网站。可以找数据,也可以创建数据。
2.4 ceicdata
https://www.ceicdata.com/zh-hans,宏观微观经济数据体验最全面的经济数据库,覆盖超过195+个国家。
2.5 google publicdata
Google攒的一些数据并公开了。
https://www.google.com/publicdata
2.6 加拉大政府公开数据
2.7 DataHub
https://old.datahub.io/ 用户可以上传数据,或者检索数据。
2.8 英国政府公开数据
2.9 世界银行开放数据
2.10 data.world
这个网站很不错,数据社交的世界,可以上传数据,也可以下载数据。
https://data.world/
....
互联网上的公开数据太多了,现在好了,google提供dataset search工具,可以检索这些互联网上公开的数据。
3. 谁会受益
3.1 机器学习开发者
可以下载很多语料用于机器学习的模型训练。特别是NLP学习者可以检索到好多有用的语料数据集。比如我试了一下word vector,
Screen Shot 2018-09-06 at 19.49.55.png
3.2 经济分析师
经济分析师们可以直接检索下载各类经济类数据集,比如中国的GDP等宏观经济数据。
Screen Shot 2018-09-06 at 19.58.52.png
3.3 经济研究学者
经济研究学者们可以很方便的得到人口、居民消费等数据了。
Screen Shot 2018-09-06 at 20.01.44.png
Screen Shot 2018-09-06 at 20.04.22.png
3.4 数据科学家
大数据行业的开发者们,数据学家有福了。
3.5 记者
记者调查问题时可以使用。特别是数据新闻类的写作,记者可以利用google dataset search。
4. 数据类型
4.1 机器学习训练用的语料数据
比如wordvector等。
4.2 宏观经济类数据
包含世界各国,各产业宏观经济数据。
4.3 人口数据
4.4 居民消费数据
4.5 世界各国政府公开的数据
Screen Shot 2018-09-06 at 20.08.12.png4.6 学术数据
4.7 气候数据
4.8 股票价格数据
4.9 航天等科研领域数据
米航空宇宙局(NASA)や米海洋大気庁(NOAA)のほか、Hardvard大学の「Dataverse」などの学術機関のレポジトリのデータが情報提供者や更新日などの情報とともに表示される。
网友评论