#充实自我61#跟Proffessor Lei学商务智能之数据预

作者: sjnfy | 来源:发表于2020-06-11 20:27 被阅读0次

今天跟Proffessor Lei学习如何使用Pandas进行数据的处理，包括通过关键字的关联把多个表格进行合并，以及如何得到自己想要的数据。

Proffessor Lei给提供了关于豆瓣评分的三张表格，

一张表格中有：电影id 电影名以及数据抓取时间

第二张表格中有：类型，主演、地区、导演、特色、评分、电影名等信息

第三张表格有如下信息：电影ID、movieID、RATING、评论等信息

如何通过相应的数据预处理把三张表格的数据合起来，得到一份关于影评的完整数据。

我们思路是：第一张数据表中的name和第二张表中的电影名可以作为表格合并的关键词，从而得到关于电影特征的数据；但是合并的数据中没有评论，我们想分析评论，需要把第三张表格中的评论和电影名对应起来，因此，通过第一张表格和第三章表格的ID关联起来进行合并就可以把表格实现相应的目的。

这里的合并都是求的表格与表格之间的交集。所以最终的数据样本量应该是比三张表格中最小的样本量还要小，因为这里面交集中可能会存在空数据的情况，比如某条数据的评分没有数值等。

跟着雷教授的讲解，一步步操作，最终数据预处理的结果如下表所示。

从这里处理过程可以看出，看似简单的事情，过程其实很繁琐。但是，坚持做下去，可能就成功了，如果放弃，则是永远也迈不过的坎。曾经，在这上面吃了亏，现在一定要吸取教训，越自律越自由，迎难而上，才能战胜自己，才能越来越好！

网友评论

本文标题：#充实自我61#跟Proffessor Lei学商务智能之数据预

本文链接：https://www.haomeiwen.com/subject/iljitktx.html

#充实自我61#跟Proffessor Lei学商务智能之数据预