R语言文本挖掘NASA数据网络分析，tf-idf和主题建模

作者: 拓端tecdat | 来源:发表于2020-04-06 11:18 被阅读0次

R语言文本挖掘NASA数据网络分析，tf-idf和主题建模
R语言对NASA元数据进行文本挖掘的主题建模分析
R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模
R语言数据挖掘-文本分析(1)
R语言包(Rwordseg/jiebaR/rCharts/rec
R语言文本挖掘使用tf-idf描述NASA元数据的文字和关键字
个人简历--杨春风
109-文本分析之文本预处理
R文本挖掘：社会网络分析
Coding and Paper Letter（七）

NASA托管和/或维护了超过32,000个数据集;这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系。

1NASA如何组织数据

首先，让我们下载JSON文件，并查看元数据中存储的名称。

<- fromJSON(\"https://data.nasa.gov/data.json\")\nnames(metadata$dataset)","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet"> metadata <- fromJSON("https://data.nasa.gov/data.json") names(metadata$dataset)

need-to-insert-img

我们在这里看到，我们可以从发布每个数据集的人那里获取信息，以获取他们发布的许可证。

class(metadata$dataset$title)

need-to-insert-img

1.1 整理数据

让我们为标题，描述和关键字设置单独的整洁数据框，保留每个数据集的数据集ID，以便我们可以在以后的分析中将它们连接起来。

1.2 初步的简单探索

NASA数据集中最常见的单词是什么？

%\n count(word, sort = TRUE)","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet">nasa_title %>% count(word, sort = TRUE)

need-to-insert-img

最常见的关键字是什么？

% \n group_by(keyword) %>% \n count(sort = TRUE)","classes":{"has":1}}" data-cke-widget-upcasted="1" data-cke-widget-keep-attr="0" data-widget="codeSnippet">nasa_keyword %>% group_by(keyword) %>% count(sort = TRUE)

need-to-insert-img