NASA托管和/或维护了超过32,000个数据集;这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系。
1NASA如何组织数据
首先,让我们下载JSON文件,并查看元数据中存储的名称。
<- fromJSON(\"https://data.nasa.gov/data.json\")\nnames(metadata$dataset)","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet"> metadata <- fromJSON("https://data.nasa.gov/data.json") names(metadata$dataset)
need-to-insert-img
我们在这里看到,我们可以从发布每个数据集的人那里获取信息,以获取他们发布的许可证。
class(metadata$dataset$title)
need-to-insert-img
1.1 整理数据
让我们为标题,描述和关键字设置单独的整洁数据框,保留每个数据集的数据集ID,以便我们可以在以后的分析中将它们连接起来 。
1.2 初步的简单探索
NASA数据集中最常见的单词是什么?
%\n count(word, sort = TRUE)","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet">nasa_title %>% count(word, sort = TRUE)
need-to-insert-img
最常见的关键字是什么?
% \n group_by(keyword) %>% \n count(sort = TRUE)","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet">nasa_keyword %>% group_by(keyword) %>% count(sort = TRUE)
need-to-insert-img
网友评论