美文网首页
#充实自我61#跟Proffessor Lei学商务智能之数据预

#充实自我61#跟Proffessor Lei学商务智能之数据预

作者: sjnfy | 来源:发表于2020-06-11 20:27 被阅读0次

今天跟Proffessor Lei学习如何使用Pandas进行数据的处理,包括通过关键字的关联把多个表格进行合并,以及如何得到自己想要的数据。

Proffessor Lei给提供了关于豆瓣评分的三张表格,

一张表格中有:电影id 电影名以及数据抓取时间

第二张表格中有:类型,主演、地区、导演、特色、评分、电影名等信息

第三张表格有如下信息:电影ID、movieID、RATING、评论等信息

如何通过相应的数据预处理把三张表格的数据合起来,得到一份关于影评的完整数据。

我们思路是:第一张数据表中的name和第二张表中的电影名可以作为表格合并的关键词,从而得到关于电影特征的数据;但是合并的数据中没有评论,我们想分析评论,需要把第三张表格中的评论和电影名对应起来,因此,通过第一张表格和第三章表格的ID关联起来进行合并就可以把表格实现相应的目的。

这里的合并都是求的表格与表格之间的交集。所以最终的数据样本量应该是比三张表格中最小的样本量还要小,因为这里面交集中可能会存在空数据的情况,比如某条数据的评分没有数值等。

跟着雷教授的讲解,一步步操作,最终数据预处理的结果如下表所示。

从这里处理过程可以看出,看似简单的事情,过程其实很繁琐。但是,坚持做下去,可能就成功了,如果放弃,则是永远也迈不过的坎。曾经,在这上面吃了亏,现在一定要吸取教训,越自律越自由,迎难而上,才能战胜自己,才能越来越好!

相关文章

网友评论

      本文标题:#充实自我61#跟Proffessor Lei学商务智能之数据预

      本文链接:https://www.haomeiwen.com/subject/iljitktx.html