美文网首页大数据 爬虫Python AI Sql玩转大数据大数据部落
R语言文本挖掘NASA数据网络分析,tf-idf和主题建模

R语言文本挖掘NASA数据网络分析,tf-idf和主题建模

作者: 拓端tecdat | 来源:发表于2020-04-06 11:18 被阅读0次

原文链接:http://tecdat.cn/?p=6763

NASA托管和/或维护了超过32,000个数据集;这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系。

1NASA如何组织数据

首先,让我们下载JSON文件,并查看元数据中存储的名称。

<- fromJSON(\"https://data.nasa.gov/data.json\")\nnames(metadata$dataset)","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet"> metadata <- fromJSON("https://data.nasa.gov/data.json") names(metadata$dataset)

need-to-insert-img

我们在这里看到,我们可以从发布每个数据集的人那里获取信息,以获取他们发布的许可证。

class(metadata$dataset$title)

need-to-insert-img

1.1 整理数据

让我们为标题,描述和关键字设置单独的整洁数据框,保留每个数据集的数据集ID,以便我们可以在以后的分析中将它们连接起来 。

1.2 初步的简单探索

NASA数据集中最常见的单词是什么?

%\n count(word, sort = TRUE)","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet">nasa_title %>% count(word, sort = TRUE)

need-to-insert-img

最常见的关键字是什么?

% \n group_by(keyword) %>% \n count(sort = TRUE)","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet">nasa_keyword %>% group_by(keyword) %>% count(sort = TRUE)

need-to-insert-img

相关文章

网友评论

    本文标题:R语言文本挖掘NASA数据网络分析,tf-idf和主题建模

    本文链接:https://www.haomeiwen.com/subject/okkmphtx.html