今天跟Proffessor Lei学习如何使用Pandas进行数据的处理,包括通过关键字的关联把多个表格进行合并,以及如何得到自己想要的数据。
Proffessor Lei给提供了关于豆瓣评分的三张表格,
一张表格中有:电影id 电影名以及数据抓取时间

第二张表格中有:类型,主演、地区、导演、特色、评分、电影名等信息

第三张表格有如下信息:电影ID、movieID、RATING、评论等信息

如何通过相应的数据预处理把三张表格的数据合起来,得到一份关于影评的完整数据。
我们思路是:第一张数据表中的name和第二张表中的电影名可以作为表格合并的关键词,从而得到关于电影特征的数据;但是合并的数据中没有评论,我们想分析评论,需要把第三张表格中的评论和电影名对应起来,因此,通过第一张表格和第三章表格的ID关联起来进行合并就可以把表格实现相应的目的。
这里的合并都是求的表格与表格之间的交集。所以最终的数据样本量应该是比三张表格中最小的样本量还要小,因为这里面交集中可能会存在空数据的情况,比如某条数据的评分没有数值等。
跟着雷教授的讲解,一步步操作,最终数据预处理的结果如下表所示。

从这里处理过程可以看出,看似简单的事情,过程其实很繁琐。但是,坚持做下去,可能就成功了,如果放弃,则是永远也迈不过的坎。曾经,在这上面吃了亏,现在一定要吸取教训,越自律越自由,迎难而上,才能战胜自己,才能越来越好!
网友评论